Google DeepMind发布Genie 3：AI世界模型新突破

129次阅读

共计 875 个字符，预计需要花费 3 分钟才能阅读完成。

Google DeepMind 近日发布了其 AI“世界”模型的新版本——Genie 3，该模型能够生成用户可以实时互动的 3D 环境。公司承诺，用户将能够比以往更长时间地与这些虚拟世界互动，且模型具备记忆功能，能够在用户移开视线后记住物体的位置。

世界模型是一种 AI 系统，能够模拟环境，广泛应用于教育、娱乐以及机器人或 AI 代理的训练。通过世界模型，用户只需提供一个提示，系统便会生成一个可像视频游戏般互动的空间。与传统的 3D 资产手工制作不同，这个世界完全由 AI 生成。Google 在这一领域投入了大量资源，曾在去年 12 月展示了 Genie 2，该模型能够根据图像创建互动世界。目前，Google 正在组建一个由 OpenAI 的 Sora 视频生成工具前联合负责人领导的世界模型团队。

Google DeepMind 发布 Genie 3：AI 世界模型新突破

然而，现有模型仍存在诸多不足。例如，Genie 2 的世界仅能支持一分钟的互动。最近，Google 尝试了一款由皮克斯联合创始人支持的公司的“互动视频”技术，但体验类似于走过一个模糊的 Google 街景版本，当用户环顾四周时，物体以意想不到的方式变形和改变。

Genie 3 则可能带来显著进步。根据 DeepMind 的一篇博客文章，用户将能够生成支持“几分钟”连续互动的世界，相比 Genie 2 的 10-20 秒互动时间有了显著提升。Google 表示，Genie 3 可以将空间保留在视觉记忆中约一分钟，这意味着如果用户移开视线后再转回来，墙上的油漆或黑板上的文字仍会保持在原位。这些世界还将具备 720p 分辨率和 24fps 的帧率。

此外，DeepMind 在 Genie 3 中引入了“可提示世界事件”功能。用户可以通过提示改变世界中的天气条件或添加新角色。

不过，Genie 3 目前并非面向大众开放。Google 表示，该模型将以“有限的研究预览”形式推出，仅提供给“一小部分学者和创作者”，以便开发人员更好地了解潜在风险并制定相应的缓解措施。此外，该模型还存在诸多限制，例如用户与生成世界互动的方式有限，且可读文本“通常只有在输入世界描述中提供时才会生成”。Google 表示，他们正在“探索”如何将 Genie 3 带给更多的测试人员。

正文完