共计 875 个字符,预计需要花费 3 分钟才能阅读完成。
Google DeepMind 近日发布了其 AI“世界”模型的新版本——Genie 3,该模型能够生成用户可以实时互动的 3D 环境。公司承诺,用户将能够比以往更长时间地与这些虚拟世界互动,且模型具备记忆功能,能够在用户移开视线后记住物体的位置。
世界模型是一种 AI 系统,能够模拟环境,广泛应用于教育、娱乐以及机器人或 AI 代理的训练。通过世界模型,用户只需提供一个提示,系统便会生成一个可像视频游戏般互动的空间。与传统的 3D 资产手工制作不同,这个世界完全由 AI 生成。Google 在这一领域投入了大量资源,曾在去年 12 月展示了 Genie 2,该模型能够根据图像创建互动世界。目前,Google 正在组建一个由 OpenAI 的 Sora 视频生成工具前联合负责人领导的世界模型团队。
然而,现有模型仍存在诸多不足。例如,Genie 2 的世界仅能支持一分钟的互动。最近,Google 尝试了一款由皮克斯联合创始人支持的公司的“互动视频”技术,但体验类似于走过一个模糊的 Google 街景版本,当用户环顾四周时,物体以意想不到的方式变形和改变。
Genie 3 则可能带来显著进步。根据 DeepMind 的一篇博客文章,用户将能够生成支持“几分钟”连续互动的世界,相比 Genie 2 的 10-20 秒互动时间有了显著提升。Google 表示,Genie 3 可以将空间保留在视觉记忆中约一分钟,这意味着如果用户移开视线后再转回来,墙上的油漆或黑板上的文字仍会保持在原位。这些世界还将具备 720p 分辨率和 24fps 的帧率。
此外,DeepMind 在 Genie 3 中引入了“可提示世界事件”功能。用户可以通过提示改变世界中的天气条件或添加新角色。
不过,Genie 3 目前并非面向大众开放。Google 表示,该模型将以“有限的研究预览”形式推出,仅提供给“一小部分学者和创作者”,以便开发人员更好地了解潜在风险并制定相应的缓解措施。此外,该模型还存在诸多限制,例如用户与生成世界互动的方式有限,且可读文本“通常只有在输入世界描述中提供时才会生成”。Google 表示,他们正在“探索”如何将 Genie 3 带给更多的测试人员。