共计 837 个字符,预计需要花费 3 分钟才能阅读完成。
微软研究院近日在《自然》杂志发表论文,展示了其最新研发的世界与人类行为模型(WHAM),这一突破性技术为实时生成互动游戏世界带来了新的可能。
WHAM 模型的核心创新在于其能够基于少量视频素材和玩家输入,模拟生成全新的游戏场景。与 Google Genie 模型类似,WHAM 通过真实游戏视频和玩家数据进行训练。微软特别选择了其子公司 Ninja Theory 开发的《Bleeding Edge》作为训练数据来源,收集了相当于七年玩家游戏时长的视频素材。
在训练初期,WHAM 模型的表现并不稳定,生成的游戏片段常常出现混乱,甚至退化为色块。但经过 100 万次训练更新后,模型开始展现出对复杂游戏互动的理解能力。微软研究人员通过提供最多一秒的真实游戏视频,测试模型生成后续帧的能力,结果显示 WHAM 可以保持长达两分钟的视频一致性,这一表现超过了 Google Genie 2 模型的一分钟记录。
WHAM 模型最引人注目的特性之一是其对游戏物体的持久性处理能力。开发者可以像插入图片一样,将新角色或物体添加到现有游戏视频中,模型能够将其整合到后续生成的帧中,并对玩家输入或视角变化做出适当反应。测试数据显示,新物体在后续帧中的持久性达到了 85% 到 98%。
然而,这项技术距离实际应用还有很长的路要走。目前,WHAM 模型主要用于游戏开发者的原型设计,其生成视频的分辨率仅为 300×180,帧率也仅为每秒 10 帧,远未达到现代游戏的可玩标准。虽然微软展示了实时 WHAM 视频生成工具的原型,但 Hoffman 坦言,这 ’ 绝对不同于玩游戏 ’,而是一种全新的体验。
微软研究院将 WHAM 视为通向未来的第一步,希望最终能够实现 AI 实时生成高端互动体验的愿景。Hoffman 表示:’ 希望这能让你感受到我们可能在思考的内容,当我们开始努力实现这些实时生成 AI 模型即时生成的互动体验时。’
这项技术的突破为游戏开发带来了新的可能性,但也引发了对 AI 生成内容质量和原创性的讨论。随着技术的进一步发展,我们或将见证游戏产业进入一个全新的时代。