共计 1037 个字符,预计需要花费 3 分钟才能阅读完成。
Google DeepMind 近日发布了 Genie 3,这是一款能够通过提示或图像创建详细、交互式世界的“世界模型”。尽管目前生成式人工智能的盈利模式尚未明确,但这并未阻止 DeepMind 继续推动技术边界的扩展。Genie 3 的发布标志着这一趋势的延续,展示了人工智能模型在能力和成本上的显著提升。
Genie 3 允许用户通过简单的提示或图像创建一个持续生成、可随时更改的交互式世界。用户可以添加或修改对象、调整天气条件,或插入新角色,DeepMind 将这些称为“可提示事件”。这种能力不仅使游戏对玩家更具动态性,还为开发者提供了验证概念和关卡设计的新方式。然而,游戏行业的一些人士对这种工具的实际应用价值持怀疑态度。
尽管 Genie 3 被视为一种创建游戏的工具,但 DeepMind 更将其视为一种研究工具。游戏在人工智能的发展中扮演着重要角色,因为它们提供了具有挑战性、互动性且可衡量进展的环境。DeepMind 此前曾通过《围棋》和《星际争霸》等游戏来扩展人工智能的边界,而 Genie 3 将这一概念提升到了新的高度,逐帧生成交互式世界。
Genie 3 的发布被视为一项重要进步,因为它提供了比前代 Genie 2 更高的视觉保真度,并且能够实时生成世界。用户可以通过键盘输入,在 720p 分辨率下以每秒 24 帧的速度导航模拟世界。更重要的是,Genie 3 能够记住它创建的世界,解决了 Genie 2 在记忆时长上的限制。Genie 3 的记忆时长大大延长,将世界模型的视觉一致性推向了多分钟的水平。
然而,Genie 3 目前仍存在一些局限性。尽管它能够保留细节长达数分钟,但团队承认,理想情况下,模型应至少保持一致性数小时。此外,Genie 3 无法模拟现实世界的位置,生成的一切都是独特且非确定性的,这意味着它容易出现典型的人工智能幻觉。例如,人类运动的细微差别有时会在生成过程中丢失,导致人物看起来像是在倒着走。文本生成方面也存在问题,除非提示中包含特定的字符串供模型使用。
人工智能代理与世界模型的集成方式也有限。虽然用户可以创建具有现实条件的世界和可提示事件,但代理在其中没有角色,它们与模拟世界的互动仅限于移动。DeepMind 仍在探索允许多个人工智能代理在共享环境中相互交互的方法,或许这一功能将在未来的 Genie 4 中实现。
尽管 Genie 3 仍是一种研究工具,但其能力显然是 DeepMind 希望展示的。团队计划向一组专家和研究人员提供访问权限,以帮助优化模型,并计划在未来向更多人开放 Genie 世界模型的访问权限。