共计 1380 个字符,预计需要花费 4 分钟才能阅读完成。
人工智能的 ’ 世界模型 ’ 能否成为实现完全逼真交互式虚拟现实(VR)的关键路径?这一问题在科技界引发了广泛讨论。科幻作品中的虚拟现实通常涉及通过头戴设备或神经接口进入一个视觉和行为都极其真实的虚拟世界。然而,当今的高端 VR 虽然在图形上相对逼真,但距离完全真实仍有显著差距,且开发这样的虚拟世界需要数年时间和巨额资金投入。此外,主流独立 VR 的图形质量往往仅相当于早期 PlayStation 4 甚至 PlayStation 2 的水平。
尽管高斯溅射技术(Gaussian Splatting)能够在独立 VR 上实现逼真的图形,但这种技术仅能捕捉瞬间的画面,且必须从现实世界中获取或预先渲染为 3D 环境。要实现实时交互性,则需要结合传统渲染的混合方法。然而,Google DeepMind 最近发布的 Genie 3 模型为这一问题提供了全新的解决方案。
Genie 3 是一个从文本提示生成实时交互式视频流的人工智能模型。它本质上是一个近乎逼真的视频游戏,每一帧都由 AI 生成,无需传统渲染或图像输入。Google 将其称为 ’ 世界模型 ’,但它也可以被视为一种交互式视频模型。用户通过文本提示输入虚拟世界的描述,几秒钟后即可在屏幕上看到生成的虚拟环境,并通过键盘和鼠标进行导航。
Genie 3 的显著之处在于其惊人的进步速度。从 2024 年初发布的原始 Genie,主要生成 256×256 分辨率的 2D 横向卷轴游戏,到 2024 年 12 月发布的 Genie 2,首次实现了 3D 图形的世界模型,再到如今的 Genie 3,能够在 720p 24fps 的分辨率下生成高度逼真的图形,并保持环境一致性长达一分钟甚至更久。这一进展令人瞩目。
Genie 3 的虚拟世界并非静态。当用户接近门时,门会自动打开;移动物体时,动态阴影和物理交互(如水面飞溅和涟漪)也会随之生成。这些行为并非预先编程,而是从训练期间开发的世界底层模型中涌现出来的。Google 称其为 ’ 世界模型 ’ 的原因正在于此。
Genie 3 还支持 ’ 可提示世界事件 ’,用户可以通过语音输入或预先安排的方式改变天气、添加新物体和角色等。这一功能使得虚拟世界的内容和事件几乎可以无限扩展,与传统开发团队需要数周甚至数月才能发布更新形成鲜明对比。
然而,Genie 3 目前仍存在一些技术限制。720p 24fps 的分辨率远低于现代游戏玩家的期望,且游戏会话的持续时间也相对较短。此外,将 Genie 3 应用于 VR 时,还需要解决 6DoF 头部姿势输入、立体图像输出以及延迟等问题。Google 声称 Genie 3 的端到端控制延迟为 50 毫秒,接近 24 fps 平面游戏的理论最小值 41.67 毫秒。如果未来模型能够以 90 fps 运行,结合 VR 重投影技术,延迟问题将不再成为障碍。
尽管如此,Genie 3 仍面临一个更为根本的挑战:可操控性。尽管 AI 模型能够大致遵循指令,但在匹配文本提示的细节方面仍存在不足。例如,用户可能无法通过调整提示来删除输出中不想要的内容。相比之下,传统渲染的视频游戏能够精确控制艺术方向和风格的微小细节,这是 AI 模型目前难以企及的。
尽管存在这些挑战,Genie 3 所展现的潜力依然令人兴奋。通过简单的文本描述即可生成逼真的交互式虚拟世界,这一技术似乎特别适合实现《星际迷航》中全息甲板的愿景。AI 世界模型仍处于早期阶段,解决这些重大挑战可能需要多年时间。然而,这一领域的进步速度和潜力无疑值得密切关注。