共计 2357 个字符,预计需要花费 6 分钟才能阅读完成。
Meta Platforms 的所有者马克·扎克伯格在周五宣布了一种名为 Movie Gen 的新 AI 模型,该模型可以从文本提示生成高清视频(1080p 分辨率)。该公司表示,这些视频在平均水平上比竞争对手技术(如 OpenAI 的 Sora 文本到视频模型)生成的视频更“真实”。
Movie Gen 不仅能够生成同步音频,还能根据需要显示人物面部,并通过简单的文本提示自动编辑视频,例如“让企鹅穿上维多利亚时代的服装”来为屏幕上的企鹅披上外衣。
在随附的论文《Movie Gen: A Cast of Media Foundation Models》中,Meta AI 研究人员描述了他们如何让人类对 AI 生成的视频的真实性进行评分。真实性衡量了在比较的视频中哪一个最接近真实视频。对于训练集分布之外的奇幻提示(例如,描绘奇幻生物或超现实场景),我们将真实性定义为模仿现实艺术风格的电影片段。
人类测试确定了 Movie Gen 与 Sora 以及另外三个著名的文本到视频 AI 模型(Runway Gen3、Lumalabs 和 Kling1.5)的胜负分数。作者指出,目前还无法以自动化的方式进行良好的比较。此外,他们写道:“评估真实性和美学在很大程度上依赖于人类的感知和偏好。”
不仅在真实性方面,而且在视频中的动作质量、是否跳过或失误动作部分,以及视频对输入文本提示的忠实度方面,都是无法自动化的,他们指出。“我们发现现有的自动化指标难以提供可靠的结果,这强化了人类评估的必要性。”
该基准衡量了“人类更喜欢我们的模型结果而不是竞争行业模型的结果”的方式,从而得出了一个“净胜率”百分比。平均而言,Movie Gen 在 11.62% 的情况下胜过 Sora。对其他模型的胜率则显著更高。“这些显著的净胜率证明了 Movie Gen Video 能够通过生成的视频模拟现实世界,这些视频尊重物理规律,动作既合理又一致且无失真。”
作者从他们所谓的“基础模型组合”中构建了 Movie Gen 的 AI 模型。在训练阶段,作者表示,来自公共和授权数据集的图像和视频被压缩,直到模型学会高效地再现数据的像素。他们使用时间自编码器(TAE)将 RGB 像素空间视频和图像编码为学习到的时空压缩潜在空间,并学习在该潜在空间中生成视频。
Meta 使用了多个步骤,不仅生成视频,还生成同步音频、个性化和视频编辑能力。然后,视频生成“以文本输入为条件”,使模型能够根据文本提示生成视频。这些部分加起来构成了一个拥有 300 亿参数的模型——按今天的训练标准来说并不算大。
第二个神经网络,称为“Movie Gen Audio”,生成高保真音频——但仅限于音效和音乐,不包括语音。这是基于现有的“扩散变换器”方法构建的,拥有 130 亿参数。所有这些都需要大量的计算能力:“6144 个 H100 GPU,每个运行在 700W TDP 和 80GB HBM3 上,使用 Meta 的 Grand Teton AI 服务器平台。”
生成视频并不是 Movie Gen 的全部功能。在后续步骤中,作者还对模型进行了额外训练,以创建“个性化”视频,其中可以强制显示个人的面部。他们还添加了一个最终组件,即仅通过文本提示编辑视频的能力。作者面临的问题是“视频编辑模型受到监督视频编辑数据稀缺的阻碍”,因此没有足够的示例来训练 AI 模型。
为了解决这个问题,团队回到了 Movie Gen AI 模型,并分几个步骤对其进行了修改。首先,他们使用图像编辑数据来模拟视频帧编辑的内容。他们将这些数据与原始的文本到视频训练同时输入模型,以便 AI 模型发展出协调单帧编辑与多帧视频的能力。在接下来的部分中,作者向模型输入一个视频、一个文本标题(例如“一个人走在街上”)和一个编辑后的视频,并训练模型生成从原始视频到编辑视频的指令。换句话说,他们迫使 AI 模型将指令与改变的视频关联起来。
为了测试视频编辑能力,作者基于 Meta 研究人员收集的 51,000 个视频编译了一个新的基准测试。他们还聘请了众包工作者来提出编辑指令。为了评估视频编辑,Meta 团队请人类评审员评判哪个视频更好:一个是用他们的 AI 模型创建的,另一个是现有最先进的模型创建的。他们还使用自动化措施来比较任务中的前后视频。“人类评审员更喜欢 Movie Gen Edit,其优势显著。”作者写道。
在所有这些步骤中,作者在协调 AI 模型的大小、数据量和使用的计算量方面取得了突破。“我们发现,使用流匹配训练的简单基于 Transformer 的模型在扩展训练数据、计算和模型参数时,可以生成高质量的视频或音频生成模型。”然而,作者承认人类评估存在其缺陷。“使用人类评估定义评估模型生成的客观标准仍然具有挑战性,因此人类评估可能受到个人偏见、背景等因素的影响。”
该论文没有提出如何处理这些人类偏见的建议。但 Meta 表示,他们将发布一个供其他人使用的基准测试,但没有透露时间表:“为了彻底评估视频生成,我们提出并希望发布一个基准测试,Movie Gen Video Bench,它包含 1000 个提示,涵盖了上述所有不同的测试方面。我们的基准测试比先前工作中使用的提示集大 3 倍以上。”
该公司还承诺将在某个时候提供其视频供公众检查:“为了使未来的工作能够公平且轻松地与 Movie Gen Video 进行比较,我们希望公开发布 Movie Gen Video Bench 提示集的非精选生成视频。”
据 Meta 称,Movie Gen 模型尚未部署。在论文的结论中,作者写道,所有 AI 模型“在部署之前都需要多项改进”。例如,模型生成的视频“仍然存在问题,例如在复杂几何、物体操作、物体物理、状态变换等方面生成的或编辑的视频中的伪影。”音频“在动作密集时有时会不同步”,例如踢踏舞视频。
尽管存在这些限制,Movie Gen 暗示了未来有一天可以实现完整的视频创作和编辑套件,甚至可以根据自己的形象定制视频播客。