DeepMind 发布 Genie 3：实时交互式世界模型的新突破

157次阅读

共计 1037 个字符，预计需要花费 3 分钟才能阅读完成。

Google DeepMind 近日发布了 Genie 3，这是一款能够通过提示或图像创建详细、交互式世界的“世界模型”。尽管目前生成式人工智能的盈利模式尚未明确，但这并未阻止 DeepMind 继续推动技术边界的扩展。Genie 3 的发布标志着这一趋势的延续，展示了人工智能模型在能力和成本上的显著提升。

Genie 3 允许用户通过简单的提示或图像创建一个持续生成、可随时更改的交互式世界。用户可以添加或修改对象、调整天气条件，或插入新角色，DeepMind 将这些称为“可提示事件”。这种能力不仅使游戏对玩家更具动态性，还为开发者提供了验证概念和关卡设计的新方式。然而，游戏行业的一些人士对这种工具的实际应用价值持怀疑态度。

尽管 Genie 3 被视为一种创建游戏的工具，但 DeepMind 更将其视为一种研究工具。游戏在人工智能的发展中扮演着重要角色，因为它们提供了具有挑战性、互动性且可衡量进展的环境。DeepMind 此前曾通过《围棋》和《星际争霸》等游戏来扩展人工智能的边界，而 Genie 3 将这一概念提升到了新的高度，逐帧生成交互式世界。

Genie 3 的发布被视为一项重要进步，因为它提供了比前代 Genie 2 更高的视觉保真度，并且能够实时生成世界。用户可以通过键盘输入，在 720p 分辨率下以每秒 24 帧的速度导航模拟世界。更重要的是，Genie 3 能够记住它创建的世界，解决了 Genie 2 在记忆时长上的限制。Genie 3 的记忆时长大大延长，将世界模型的视觉一致性推向了多分钟的水平。

然而，Genie 3 目前仍存在一些局限性。尽管它能够保留细节长达数分钟，但团队承认，理想情况下，模型应至少保持一致性数小时。此外，Genie 3 无法模拟现实世界的位置，生成的一切都是独特且非确定性的，这意味着它容易出现典型的人工智能幻觉。例如，人类运动的细微差别有时会在生成过程中丢失，导致人物看起来像是在倒着走。文本生成方面也存在问题，除非提示中包含特定的字符串供模型使用。

人工智能代理与世界模型的集成方式也有限。虽然用户可以创建具有现实条件的世界和可提示事件，但代理在其中没有角色，它们与模拟世界的互动仅限于移动。DeepMind 仍在探索允许多个人工智能代理在共享环境中相互交互的方法，或许这一功能将在未来的 Genie 4 中实现。

尽管 Genie 3 仍是一种研究工具，但其能力显然是 DeepMind 希望展示的。团队计划向一组专家和研究人员提供访问权限，以帮助优化模型，并计划在未来向更多人开放 Genie 世界模型的访问权限。

正文完