Google DeepMind发布两款新AI模型，推动机器人技术革新

171次阅读

共计 816 个字符，预计需要花费 3 分钟才能阅读完成。

Google DeepMind 近日发布了两款突破性的 AI 模型，旨在显著提升机器人在现实世界中的任务执行能力。其中，Gemini Robotics 视觉 - 语言 - 动作模型展现了无需预先训练即可理解新场景并执行相应动作的卓越能力。

这款创新模型基于 Google 最新旗舰 AI 模型 Gemini 2.0 构建，融合了多模态世界理解能力，并将物理动作作为新模态应用于现实世界。Google DeepMind 高级总监 Carolina Parada 强调，Gemini Robotics 在通用性、交互性和灵巧性三大关键领域实现了质的飞跃。

Google DeepMind 发布两款新 AI 模型，推动机器人技术革新

Gemini Robotics 不仅能够灵活应对新场景，更擅长与人类及其环境进行高效互动，执行诸如折叠纸张、拧开瓶盖等精确物理任务。Parada 表示，这一突破性进展使得机器人系统在响应速度和环境适应能力方面都得到了显著提升。

此外，Google DeepMind 还推出了 Gemini Robotics-ER（具身推理）模型，这款高级视觉语言模型能够深入理解复杂动态的世界。Parada 举例说明，在打包午餐盒时，该模型可以准确判断物品位置、操作顺序等细节，为机器人专家提供了强大的推理支持。

在安全性能方面，Google DeepMind 研究员 Vikas Sindhwani 透露，公司正在开发分层安全评估系统，确保机器人在各种场景下的动作执行都经过严格的安全评估。同时，公司还发布了新的基准和框架，进一步推动 AI 行业的安全研究。

Google DeepMind 正与 Apptronik 等领先企业合作，致力于开发下一代人形机器人。通过向包括 Agile Robots、Boston Dynamics 在内的多家公司提供 Gemini Robotics-ER 模型的访问权限，Google DeepMind 正在将这项突破性技术应用于更广泛的领域。Parada 表示，公司将继续专注于开发能够深入理解物理世界并在其中灵活行动的智能系统，推动机器人技术在多个应用场景中的创新与发展。

正文完