Google Genie 3如何重塑AI视频并构建互动世界

4次阅读
没有评论

共计 1473 个字符,预计需要花费 4 分钟才能阅读完成。

AI 技术正日益精通于生成能够模拟现实世界物理环境并对用户动态响应的虚拟环境。

Google Genie 3 如何重塑 AI 视频并构建互动世界Google Genie 3 如何重塑 AI 视频并构建互动世界

想象一下探索一个无边界的虚拟环境,你所看到的一切都像在现实中一样行动和表现。这正是当今许多技术开发者通过 AI“世界模型”努力创造的,这种算法可以构建并基于内部、代表现实世界的模型进行行动,模仿人类大脑预测物理对象行为的能力。

像 Google DeepMind 的新 Genie 3 这样的世界模型可能对 AI 代理、机器人技术、娱乐、教育等许多领域产生巨大影响。

什么是 AI 世界模型?正如你能够想象阳光照亮客厅的灯具,或者石头掉入静止的池塘对水面的影响,AI“世界模型”不仅能将单词串联起来或生成逼真的图像,还能基于对世界基本物理机制的理解,对现实世界做出准确的预测。

这对 AI 生成视频领域尤为重要。一个模型观看数百万个玻璃杯掉到地上并破碎的视频,并以此为基础生成相同事件的新视频是一回事;而一个模型能直观理解重力物理、碎玻璃在地毯与瓷砖地板上散落的距离,以及人类手不小心触摸碎片可能导致伤口和出血,则是另一回事。

这已成为主要 AI 开发者的后一个目标:AI 世界模型不仅能模仿场景,还能预测几乎无限数量的新场景。

Genie 3 是另一个展示世界模型力量的示例。通过简单的自然语言提示,Genie 3 可以生成动态的虚拟环境模拟,这些环境会随着用户的操作而演变和变化。

与经典视频游戏不同,后者具有明确边界的虚拟空间,而像 Genie 3 这样的世界模型能够随着用户的互动扩展其模拟环境。

Genie 3 配备了一个 Google DeepMind 称为“世界记忆”的功能,允许模型表示模拟环境中随时间持续的变化。例如,在演示视频中,用户用油漆滚筒粉刷墙壁;当他们转身并再次看向墙壁时,他们用滚筒做的标记仍然可见。

如果你在探索模拟环境时感到无聊,可以通过提示 Genie 3 引发事件来改变局面。例如:“一个骑马的男子带着装满钱的袋子,被同样骑马的德克萨斯骑警追赶。所有的马蹄都扬起巨大的尘土。”

为什么世界模型重要?正如 Genie 3 演示视频中的旁白所暗示的,世界模型除了帮助生成更逼真、动态和互动的娱乐形式外,还可能具有其他有价值的应用。

例如,它们可以帮助 AI 行业构建能够导航并与现实世界互动的具身代理。(这是自动驾驶汽车行业自成立以来一直试图克服的挑战,但大多未成功。)

它们还可以用于模拟 Genie 3 演示中描述的“危险场景”,例如最近的自然灾害现场,以帮助急救人员为实际紧急情况做好准备。结合虚拟现实头显,沉浸在世界模型中还可以帮助急救人员建立肌肉记忆,以便他们能够更好地在压力下冷静行动。

教育也可以从世界模型的使用中受益,尤其是对那些更接受视觉信息的学生。

世界模型真的“理解”现实世界吗?经过大量现实世界数据的训练,算法逐渐提高其预测能力。最终——在一个研究人员仍在努力理解的过程中——它们可以变得如此熟练,以至于在某种程度上,我们可以说它们似乎“理解”了世界的某些方面,例如英语的语法或人体运动的物理。

Google DeepMind 在其博客文章中定义世界模型为“能够利用对世界的理解来模拟其各个方面的 AI 系统,使代理能够预测环境将如何演变以及它们的行动将如何影响环境。”

然而,在这种背景下使用“理解”一词是有争议的;一些专家认为 AI 只能重现模式,因此永远无法像人类一样理解概念,而另一些人则持相反观点,声称也许人类的理解不过是一种复杂的模式识别。

如果你蒙上眼睛,尝试走过家里的每一个房间,你可能不会受伤或打碎东西(假设你已在那里住了一段时间)。同样,今天的 AI 模型能够以至少对我们人类来说似乎了解地形的方式探索信息的潜在空间。

正文完
 0
admin-gah
版权声明:本文于2025-08-08转载自Zdnet,共计1473字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码