共计 1477 个字符,预计需要花费 4 分钟才能阅读完成。
一个未来,其中逼真的视频伪造变得容易且丰富,似乎是不可避免的。
2024 年 10 月 4 日,Meta 宣布了 Movie Gen 的预览版,这是一套新的 AI 模型,旨在创建和操作视频、音频和图像,包括从单张人物照片创建逼真视频。该公司声称,在人类评估中,这些模型优于其他视频合成模型,使我们更接近一个未来,任何人都可以按需合成任何主题的完整视频。
Movie Gen 建立在 Meta 之前的视频合成工作基础上,继 2022 年的 Make-A-Scene 视频生成器和 Emu 图像合成模型之后。使用文本提示进行指导,这个最新的系统首次可以生成带有声音的自定义视频,编辑并插入现有视频中的更改,并将人物图像转换为逼真的个性化视频。
在 AI 视频合成领域,Meta 并非唯一参与者。谷歌在五月展示了一个名为 Veo 的新模型,而 Meta 表示,在人类偏好测试中,其 Movie Gen 输出击败了 OpenAI 的 Sora、Runway 的 Gen- 3 和中国视频模型 Kling。
尽管如此,正如我们之前在 AI 视频生成器中看到的那样,Movie Gen 生成特定主题连贯场景的能力可能依赖于 Meta 用于训练其视频合成模型的示例视频中的概念。值得注意的是,视频生成器的精选结果通常与典型结果大相径庭,获得连贯结果可能需要大量的试错。
谈到训练数据,Meta 表示它使用了“许可和公开可用的数据集”的组合来训练这些模型,这很可能包括多年来 Facebook 和 Instagram 用户上传的视频,尽管这是基于 Meta 的当前政策和先前行为的推测。
Meta 称 Movie Gen 的一个关键功能为“个性化视频创建”,但自 2017 年以来,它还有一个名字:深度伪造。深度伪造技术在某些专家中引发警报,因为它可能被用来模拟真实的摄像机镜头,使人们看起来做了他们实际上没有做的事情。
使用 Movie Gen 创建深度伪造视频似乎就像提供一张人物的输入图像,以及一个描述你希望他们在结果视频中做什么或在哪里出现的文本提示一样简单。系统随后生成一个视频,展示该个体,旨在保留其身份和动作,同时结合提示中的细节。
这种技术可能被滥用的方式多种多样,包括创建羞辱性视频,将人们置于虚假的尴尬情境中,伪造历史背景,或生成深度伪造视频色情。这使我们更接近一个文化奇点,其中媒体中的真实与虚构由于流动且最终实时的人工智能媒体合成而无法区分。
四月,微软展示了一个名为 VASA- 1 的模型,可以从单张照片和单个音频轨道创建一个人说话的逼真视频,但 Movie Gen 更进一步,将深度伪造的人物置于视频场景中,无论是 AI 生成的还是其他。然而,Movie Gen 似乎尚未生成或同步语音。
Meta 还展示了 Movie Gen 的视频编辑组件,该组件允许根据文本指令对现有视频进行精确修改。它可以执行局部编辑,如添加或移除元素,以及全局更改,如改变背景或整体风格。
此外,迄今为止,我们使用的每个视频合成模型都创建了无声视频。Meta 通过一个能够根据文本提示生成环境声音、音效和与视频内容同步的器乐背景音乐的独立音频生成模型,将声音合成引入 AI 视频。该公司声称,该模型可以为任何长度的视频生成音频,保持音频的连贯性。
尽管取得了进展,Meta 承认当前模型存在局限性。该公司计划通过进一步扩展模型来加快视频生成时间并提高整体质量。您可以在 Meta 今天发布的研究论文中了解更多关于 Movie Gen 模型的工作原理。
Meta 还计划与电影制片人和创作者合作,将他们的反馈整合到模型的未来版本中。然而,在 SAG-AFTRA 演员工会去年发出警告和一些行业专业人士对视频合成的分歧反应之后,我们可以想象并非所有反馈都会是积极的。