腾讯发布HunyuanWorld-Voyager:用AI将照片转换为可探索的3D世界

4次阅读
没有评论

共计 2162 个字符,预计需要花费 6 分钟才能阅读完成。

腾讯近日发布了 HunyuanWorld-Voyager,这是一个全新的开源 AI 模型,能够从单张图像生成 3D 一致的视频序列,允许用户操控相机路径“探索”虚拟场景。该模型同时生成 RGB 视频和深度信息,无需传统建模技术即可实现直接的 3D 重建。然而,它暂时还无法替代视频游戏。

生成的结果并非真正的 3D 模型,但达到了类似的效果:该 AI 工具生成 2D 视频帧,这些帧在空间上保持一致,仿佛相机在真实的 3D 空间中移动。每次生成仅产生 49 帧——大约两秒的视频——不过,腾讯表示可以将多个片段串联起来,生成持续“几分钟”的序列。当相机围绕物体移动时,物体保持相对位置不变,视角变化也如真实 3D 环境中预期的那样正确。虽然输出的是带有深度图的视频而非真正的 3D 模型,但这些信息可以转换为 3D 点云用于重建目的。

腾讯发布 HunyuanWorld-Voyager:用 AI 将照片转换为可探索的 3D 世界

该系统通过接受单张输入图像和用户定义的相机轨迹来工作。用户可以通过提供的界面指定相机的前后、左右或旋转运动。系统将图像和深度数据与内存高效的“世界缓存”结合,生成反映用户定义相机运动的视频序列。

所有基于 Transformer 架构的 AI 模型的一个主要局限是,它们从根本上模仿训练数据中的模式,这限制了它们“泛化”的能力,即将这些模式应用于训练数据中未出现过的新情况。为了训练 Voyager,研究人员使用了超过 10 万个视频片段,包括来自 Unreal Engine 的计算机生成场景——本质上教模型模仿相机在 3D 视频游戏环境中的移动方式。

大多数 AI 视频生成器,如 Sora,生成的帧看起来连续合理,但不尝试跟踪或保持空间一致性。值得注意的是,Voyager 经过训练能够识别并重现空间一致性的模式,但增加了几何反馈循环。在生成每一帧时,它将输出转换为 3D 点,然后将这些点投影回 2D 以供未来帧参考。

这种技术迫使模型将其学习到的模式与自身先前输出的几何一致投影进行匹配。虽然这比标准视频生成器创造了更好的空间一致性,但它仍然是由几何约束引导的模式匹配,而非真正的 3D“理解”。这解释了为什么该模型能够保持几分钟的一致性,但在完整的 360 度旋转中表现不佳——模式匹配中的小错误在多个帧中累积,直到几何约束无法保持连贯性。

根据腾讯的技术报告,该系统利用两个主要部分协同工作。首先,它同时生成彩色视频和深度信息,确保它们完美匹配——当视频显示一棵树时,深度数据准确知道这棵树有多远。其次,它使用腾讯称之为“世界缓存”的东西——一个由先前生成的帧创建的 3D 点集合。在生成新帧时,这个点云从新的相机角度投影回 2D,生成部分图像,显示基于先前帧应该可见的内容。模型然后使用这些投影作为一致性检查,确保新帧与已生成的内容对齐。

该发布增加了来自不同公司的世界生成模型集合。Google 的 Genie 3 于 2025 年 8 月发布,从文本提示生成 720p 分辨率和 24 帧每秒的交互世界,允许实时导航几分钟。Dynamics Lab 的 Mirage 2 提供基于浏览器的世界生成,允许用户上传图像并将其转换为可玩环境,并实时生成文本提示。虽然 Genie 3 专注于训练 AI 代理且未公开,Mirage 2 强调用户生成内容用于游戏,Voyager 则通过其 RGB- 深度输出能力瞄准视频制作和 3D 重建工作流。

Voyager 基于腾讯早期的 HunyuanWorld 1.0 构建,该模型于 7 月发布。Voyager 也是腾讯更广泛的“Hunyuan”生态系统的一部分,包括用于文本到 3D 生成的 Hunyuan3D- 2 模型和之前报道的用于视频合成的 HunyuanVideo。

为了训练 Voyager,研究人员开发了软件,自动分析现有视频以处理相机运动并计算每帧的深度——消除了人工手动标注数千小时素材的需求。该系统处理了超过 10 万个视频片段,包括现实世界录制和上述 Unreal Engine 渲染。

该模型需要强大的计算能力来运行,540p 分辨率至少需要 60GB 的 GPU 内存,不过腾讯建议使用 80GB 以获得更好的效果。腾讯在 Hugging Face 上发布了模型权重,并包含了适用于单 GPU 和多 GPU 设置的代码。

该模型附带显著的许可限制。与腾讯的其他 Hunyuan 模型一样,该许可证禁止在欧盟、英国和韩国使用。此外,每月活跃用户超过 1 亿的商业部署需要腾讯的单独许可。

在斯坦福大学研究人员开发的 WorldScore 基准测试中,Voyager 据报道以 77.62 的总分获得最高分,而 WonderWorld 为 72.69,CogVideoX-I2V 为 62.15。该模型在物体控制(66.92)、风格一致性(84.89)和主观质量(71.09)方面表现出色,但在相机控制(85.95)方面位居第二,落后于 WonderWorld 的 92.98。WorldScore 评估世界生成方法在多个标准上的表现,包括 3D 一致性和内容对齐。

虽然这些自我报告的基准测试结果看起来很有希望,但由于涉及的计算能力,广泛部署仍然面临挑战。对于需要更快处理的开发者,该系统支持使用 xDiT 框架在多个 GPU 上进行并行推理。在八个 GPU 上运行的处理速度比单 GPU 设置快 6.69 倍。

鉴于所需的处理能力和生成长连贯“世界”的局限性,使用类似技术实现实时交互体验可能还需要一段时间。但正如我们在 Google 的 Genie 等实验中看到的那样,我们可能正在见证一种新的交互式生成艺术形式的早期阶段。

正文完
 0
admin-gah
版权声明:本文于2025-09-04转载自Ars Technica,共计2162字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码