ChatGPT与机器人训练场景生成的未来趋势

9次阅读
没有评论

共计 2597 个字符,预计需要花费 7 分钟才能阅读完成。

在过去三年中,像 ChatGPT 和 Claude 这样的聊天机器人经历了使用量的飞速增长,因为它们能够帮助完成各种任务。无论是创作莎士比亚十四行诗、调试代码,还是回答冷门琐事问题,人工智能系统似乎都能胜任。这种多功能性的来源是什么?互联网上数十亿甚至数万亿的文本数据点。

然而,这些数据并不足以教会机器人成为有用的家庭或工厂助手。为了理解如何处理、堆叠和放置不同环境中的各种物体,机器人需要示范。可以将机器人训练数据视为一系列教学视频,这些视频引导系统完成任务的每一个动作。在真实机器人上收集这些示范既耗时又无法完全重复,因此工程师们通过人工智能生成模拟(这些模拟通常无法反映真实世界的物理特性)或从头开始手工制作每个数字环境来创建训练数据。

ChatGPT 与机器人训练场景生成的未来趋势

麻省理工学院计算机科学与人工智能实验室(CSAIL)和丰田研究所的研究人员可能找到了一种方法,可以创建机器人所需的多样化、逼真的训练场景。他们的“可操控场景生成”方法创建了厨房、客厅和餐厅等数字场景,工程师可以用这些场景来模拟大量真实世界的交互和情境。该工具在填充了超过 4400 万个 3D 房间(包含桌子和盘子等物体模型)的数据集上进行训练,将现有资源放置在新场景中,然后将每个场景优化为物理上准确、逼真的环境。

可操控场景生成通过“引导”扩散模型(一种从随机噪声生成视觉图像的人工智能系统)来创建这些 3D 世界,使其朝向日常生活中常见的场景。研究人员使用这种生成系统来“绘制”环境,填充场景中的特定元素。可以想象,一块空白画布突然变成一个散落着 3D 物体的厨房,这些物体逐渐重新排列成一个模仿真实世界物理的场景。例如,该系统确保叉子不会穿过桌子上的碗——这是 3D 图形中常见的故障,称为“剪裁”,即模型重叠或交叉。

然而,可操控场景生成如何引导其创作朝向逼真,取决于选择的策略。其主要策略是“蒙特卡洛树搜索”(MCTS),该模型创建一系列替代场景,以不同方式填充它们以实现特定目标(例如使场景更具物理真实性,或包含尽可能多的可食用物品)。人工智能程序 AlphaGo 使用这种方法在围棋(一种类似于象棋的游戏)中击败人类对手,因为系统在选择最有利的走法之前会考虑潜在的走法序列。

“我们是第一个将 MCTS 应用于场景生成的人,通过将场景生成任务框架化为一个顺序决策过程,”麻省理工学院电气工程与计算机科学系(EECS)博士生、CSAIL 研究员和介绍该工作的论文的主要作者 Nicholas Pfaff 说。“我们不断在部分场景的基础上构建,随着时间的推移产生更好或更理想的场景。因此,MCTS 创建的场景比扩散模型训练的场景更复杂。”

在一个特别有说服力的实验中,MCTS 在一个简单的餐厅场景中添加了最大数量的物体。在平均只有 17 个物体的场景上训练后,它在桌子上摆放了多达 34 件物品,包括成堆的点心盘。

可操控场景生成还允许通过强化学习生成多样化的训练场景——本质上,通过试错教导扩散模型实现目标。在初始数据训练后,系统会进入第二个训练阶段,在此阶段定义奖励(基本上是一个期望的结果,并有一个分数表示离该目标有多近)。模型自动学习创建得分更高的场景,通常产生与训练场景大不相同的场景。

用户还可以通过输入特定的视觉描述(如“厨房里有四个苹果和桌子上的一个碗”)直接提示系统。然后,可操控场景生成可以精确地将这些请求变为现实。例如,该工具在构建食品储藏室货架场景时准确率高达 98%,在构建凌乱的早餐桌场景时准确率为 86%。这两个数字都比“MiDiffusion”和“DiffuScene”等类似方法至少提高了 10%。

该系统还可以通过提示或简单指令完成特定场景(如“使用相同的物体想出不同的场景安排”)。例如,可以要求它将苹果放在厨房桌子上的几个盘子上,或者将棋盘游戏和书籍放在架子上。它本质上是通过将物品放入空白空间来“填补空白”,但保留了场景的其余部分。

根据研究人员的说法,该项目的优势在于其能够创建许多机器人专家实际可用的场景。“我们研究结果的一个关键见解是,我们预训练的场景不必与我们实际想要的场景完全相似,”Pfaff 说。“使用我们的引导方法,我们可以超越这种广泛分布,从‘更好’的分布中采样。换句话说,生成我们实际想要训练机器人的多样化、逼真且与任务一致的场景。”

这些广阔的场景成为了测试场地,研究人员可以在其中记录虚拟机器人与不同物品的互动。例如,机器人在各种 3D 设置中小心地将叉子和刀放入餐具架,并将面包重新排列到盘子上。每次模拟都显得流畅而逼真,类似于可操控场景生成有一天可以帮助训练的现实世界适应性机器人。

虽然该系统可能是生成大量多样化机器人训练数据的一个有希望的途径,但研究人员表示他们的工作更像是一个概念验证。未来,他们希望使用生成式人工智能创建全新的物体和场景,而不是使用固定的资源库。他们还计划加入机器人可以打开或扭转的关节物体(如装满食物的橱柜或罐子),以使场景更具互动性。

为了使他们的虚拟环境更加逼真,Pfaff 和他的同事可能会通过使用从互联网图像中提取的物体和场景库,并利用他们之前关于“可扩展 Real2Sim”的工作,加入现实世界的物体。通过扩展人工智能构建的机器人测试场地的多样性和逼真度,该团队希望建立一个用户社区,生成大量数据,然后将其用作一个庞大的数据集,以教导灵巧的机器人不同的技能。

“今天,为模拟创建逼真的场景可能是一项相当具有挑战性的工作;程序化生成可以轻松生成大量场景,但它们可能无法代表机器人在现实世界中遇到的环境。手动创建定制场景既耗时又昂贵,”亚马逊机器人公司的应用科学家 Jeremy Binagia 说,他并未参与该论文。“可操控场景生成提供了一种更好的方法:在大量预先存在的场景上训练生成模型,并将其(使用强化学习等策略)适应特定的下游应用。与之前利用现成视觉语言模型或仅专注于在 2D 网格中排列物体的工作相比,这种方法保证了物理可行性,并考虑了完整的 3D 平移和旋转,从而能够生成更有趣的场景。”

“可操控场景生成与训练后和推理时搜索相结合,为大规模自动化场景生成提供了一个新颖而高效的框架,”丰田研究所机器人专家 Rick Cory SM ’08,PhD ’10 说,他也未参与该论文。“此外,它可以生成‘前所未见’的场景,这些场景被认为对下游任务很重要。未来,将该框架与大量互联网数据相结合,可能为高效训练机器人以部署在现实世界中解锁一个重要里程碑。”

正文完
 0
admin-gah
版权声明:本文于2025-10-09转载自MIT News,共计2597字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码