共计 1024 个字符,预计需要花费 3 分钟才能阅读完成。
乍一看,这些由 AI 生成的《超级马里奥兄弟》视频相当令人印象深刻。然而,看得越多,你就会发现越多的故障。
上个月,谷歌的 GameNGen AI 模型展示了通用图像扩散技术可以用于生成一个可玩的《毁灭战士》版本。现在,研究人员正在使用一些类似的技术,通过一个名为 MarioVGG 的模型,看看 AI 模型是否能根据用户输入生成合理的《超级马里奥兄弟》视频。
MarioVGG 模型的结果——由加密相关的 AI 公司 Virtuals Protocol 发布的预印本论文——仍然显示出许多明显的故障,目前速度也太慢,无法接近实时游戏。但结果显示,即使是一个有限的模型,也能通过研究一些视频和输入数据,推断出一些令人印象深刻的物理和游戏动态。
研究人员希望这代表了朝着生成和展示一个可靠且可控的视频游戏生成器迈出的第一步,甚至在未来可能完全使用视频生成模型取代游戏开发和游戏引擎。
观看 737,000 帧的马里奥
为了训练他们的模型,MarioVGG 的研究人员(GitHub 用户 erniechew 和 Brian Lim 被列为贡献者)从一个包含 280 个关卡输入和图像数据的公开《超级马里奥兄弟》游戏数据集开始(为了评估,训练数据中删除了 1 - 1 关卡,以便使用其图像)。该数据集中的 737,000 多帧被预处理成 35 帧的块,以便模型开始学习各种输入的直接结果通常是什么样子。
为了简化游戏情况,研究人员决定只关注数据集中的两个潜在输入:向右跑和向右跑并跳跃。尽管如此,即使是这种有限的移动集也为机器学习系统带来了一些困难,因为预处理器在跳跃前需要回溯几帧以确定跑的开始时间和是否开始。任何包含空中调整(即左按钮)的跳跃也必须被丢弃,因为这会为训练数据集引入噪声,研究人员写道。
- MarioVGG 接受一个游戏帧和文本输入动作来生成多个视频帧。
- 生成的视频序列的最后一帧可以用作下一批帧的基础。
- AI 生成的马里奥跳跃弧度相当准确(即使算法在屏幕滚动时创建随机障碍)。
- MarioVGG 能够推断出从边缘跑下或撞到障碍物等行为的物理特性。
- 一个特别糟糕的故障示例,导致马里奥在某些点从场景中消失。
在预处理(以及在单个 RTX 4090 显卡上约 48 小时的训练)后,研究人员使用标准的卷积和去噪过程,从静态的游戏开始图像和文本输入(在这个有限的情况下是跑或跳)生成新的视频帧。虽然这些生成的序列只持续几帧,但一个序列的最后一帧可以用作新序列的第一帧,根据研究人员的说法,这可以创建任何长度的游戏视频,仍然显示连贯且一致的游戏玩法。