共计 989 个字符,预计需要花费 3 分钟才能阅读完成。
Google DeepMind 最新发布的 Gemini Robotics 1.5 模型使机器人能够执行多步骤任务,甚至可以通过网络搜索获取帮助。这一突破性技术还允许不同类型的机器人相互学习,进一步提升其灵活性和实用性。
在近日的新闻发布会上,Google DeepMind 机器人部门负责人 Carolina Parada 表示,升级后的 AI 模型使机器人能够在物理世界中采取行动之前“提前思考多个步骤”。这一能力由新发布的 Gemini Robotics 1.5 和具身推理模型 Gemini Robotics-ER 1.5 提供支持,这是对今年 3 月推出的 AI 模型的重大更新。
过去,机器人只能执行单一任务,例如折叠纸张或拉开拉链。如今,借助新模型,机器人能够完成更复杂的操作。例如,它们可以根据衣物的颜色分类洗衣,根据伦敦的天气打包行李箱,甚至通过网络搜索帮助用户分类垃圾、堆肥和可回收物。
“此前,这些模型能够很好地执行单一指令,且具有很高的通用性,”Parada 解释道。“通过这次更新,我们正在从单一指令转向真正的理解和解决物理任务。”
升级后的 Gemini Robotics-ER 1.5 模型使机器人能够理解周围环境,并利用 Google 搜索等数字工具获取更多信息。随后,模型将这些信息转换为自然语言指令,供 Gemini Robotics 1.5 使用,从而让机器人能够结合视觉和语言理解能力执行每一步操作。
Google DeepMind 还宣布,Gemini Robotics 1.5 可以帮助不同配置的机器人“相互学习”。例如,为 ALOHA2 双机械臂机器人设计的任务同样适用于双臂 Franka 机器人以及 Apptronik 的人形机器人 Apollo。
“这为我们带来了两大优势,”Google DeepMind 软件工程师 Kanishka Rao 在简报会上表示。“首先,单一模型可以控制多种不同类型的机器人,包括人形机器人。其次,现在可以将在一台机器人上学习的技能转移到另一台机器人上。”
作为更新的一部分,Google DeepMind 通过 Google AI Studio 中的 Gemini API 向开发者开放了 Gemini Robotics-ER 1.5 的访问权限。而 Gemini Robotics 1.5 目前仅对选定的合作伙伴开放。
这一技术突破不仅标志着机器人在多任务处理和环境适应能力上的显著提升,也为未来机器人在家庭、工业和服务领域的广泛应用铺平了道路。