共计 2773 个字符,预计需要花费 7 分钟才能阅读完成。
OpenAI 最新推出的文本转视频应用 Sora,本意是打造一个社交 AI 游乐场,让用户能够创作自己、朋友乃至名人的创意视频,同时借鉴他人的灵感。该应用的社交架构允许用户调整自己在他人视频中的形象可用性,似乎在上周推出时解决了围绕 AI 生成视频的紧迫同意问题。
然而,随着 Sora 在 iOS 应用商店上架并迅速突破百万下载量,专家们开始担忧,这款应用可能会淹没互联网,充斥着历史错误信息和无法同意或退出的已故历史人物的深度伪造视频。Sora 能在不到一分钟内生成已故名人从未经历过的情境短视频,例如艾瑞莎·弗兰克林制作大豆蜡烛,凯丽·费雪尝试在松弛绳上保持平衡,纳特·金·科尔在哈瓦那滑冰,玛丽莲·梦露教小学生越南语。
对于像亚当·斯特里斯班德这样的律师来说,这无疑是一场噩梦。他曾代表多位名人遗产,包括梦露的遗产。斯特里斯班德指出,加州的法院长期以来一直保护名人免受类似 AI 的图像或声音复制。然而,问题在于,依赖于人类的非 AI 司法程序是否能够应对这种几乎五维的打地鼠游戏。
Sora 上的视频从荒谬到令人愉悦再到令人困惑。除了名人,许多视频展示了被操纵的历史时刻的令人信服的深度伪造。例如,NBC 新闻能够生成逼真的视频,显示德怀特·艾森豪威尔总统承认接受数百万美元的贿赂,英国首相玛格丽特·撒切尔认为“所谓的诺曼底登陆”被夸大了,约翰·F·肯尼迪总统宣布登月“不是科学的胜利,而是捏造”。
生成这种未经同意的已故个人的深度伪造视频已经引起了家属的投诉。罗宾·威廉姆斯的女儿塞尔达在 Instagram 上写道:“如果你还有任何体面,就停止对他、对我、对所有人这样做,完全停止。这很愚蠢,是浪费时间和精力,相信我,这不是他想要的。”马丁·路德·金的女儿伯妮斯·金在 X 上写道:“我同意关于我父亲的观点。请停止。”金的著名“我有一个梦想”演讲在该应用上不断被操纵和混音。
乔治·卡林的女儿在 BlueSky 帖子中表示,他的家人“正在尽最大努力对抗”这位已故喜剧演员的深度伪造视频。本周,描绘著名物理学家斯蒂芬·霍金涉及“可怕暴力”的 Sora 生成视频也激增,许多例子在 X 上流传。
OpenAI 的一位发言人告诉 NBC 新闻:“虽然描绘历史人物有强烈的言论自由利益,但我们认为公众人物及其家属最终应该控制他们的形象如何使用。对于最近去世的公众人物,其授权的代表或遗产所有者可以要求他们的形象不用于 Sora 客串。”
在上周五的一篇博客文章中,OpenAI 首席执行官山姆·阿尔特曼写道,公司将很快“给予权利人更细粒度的角色生成控制权”,指的是更广泛的内容类型。“我们听到许多权利人非常兴奋于这种新型‘互动粉丝小说’,并认为这种新型互动将为他们带来很多价值,但希望有能力指定他们的角色如何使用(包括完全不使用)。”
OpenAI 快速演变的 Sora 政策导致一些评论者认为,该公司快速行动和打破常规的做法是有目的的,向用户和知识产权持有者展示了该应用的力量和影响力。
莱斯大学媒体研究项目的讲师利亚姆·梅斯认为,越来越逼真的深度伪造可能产生两个关键的社会影响。首先,他说,“我们会发现信任的人成为各种骗局的受害者,大而强大的公司施加强制压力,邪恶的行为者破坏民主进程。”与此同时,无法区分深度伪造和真实视频可能会减少对真实媒体的信任。“我们可能会看到对各种媒体机构和机构的信任逐渐消失,”梅斯说。
作为 CMG Worldwide 的创始人和主席,马克·罗斯勒管理了超过 3000 位已故娱乐、体育、历史和音乐人物的知识产权和许可权,如詹姆斯·迪恩、尼尔·阿姆斯特朗和阿尔伯特·爱因斯坦。罗斯勒表示,Sora 只是最新一项引发保护人物遗产担忧的技术。
“现在和将来都会有滥用,就像一直以来名人和他们宝贵的知识产权一样,”他在一封电子邮件中写道。“当我们 1981 年开始代表已故人物时,互联网甚至还不存在。”
“新技术和创新帮助许多历史、标志性人物的遗产保持活力,他们塑造和影响了我们的历史,”罗斯勒补充道,并表示 CMG 将继续在 Sora 等 AI 应用中代表客户的利益。
为了区分真实视频和 Sora 生成的视频,OpenAI 实施了多种工具,帮助用户和数字平台识别 Sora 创建的内容。每个视频都包含不可见的信号、可见的水印和元数据——描述内容为 AI 生成的幕后技术信息。
然而,哈佛大学的计算机科学家西德·斯里尼瓦桑表示,这些层次的几个部分很容易移除。“可见的水印和元数据将通过一些摩擦阻止随意滥用,但它们很容易移除,不会阻止更有决心的行为者。”
斯里尼瓦桑表示,不可见的水印和相关的检测工具可能是最可靠的方法。“最终,视频托管平台可能需要访问这样的检测工具,但目前没有明确的时间表可以让更多人访问这些内部工具。”
卡内基梅隆大学计算机科学助理教授郑文婷也表达了类似的观点,她说:“为了自动检测社交媒体帖子上的 AI 生成材料,OpenAI 与平台分享他们的图像、音频和视频追踪工具将有助于人们识别 AI 生成的内容。”
当被问及 OpenAI 是否与 Meta 或 X 等其他平台分享了这些检测工具的具体细节时,OpenAI 的一位发言人将 NBC 新闻指向了一份通用的技术报告。该报告没有提供如此详细的信息。
为了更好地识别真实镜头,一些公司正在使用 AI 来检测 AI 输出,据深度伪造检测初创公司 Reality Defender 的首席执行官兼联合创始人本·科尔曼说。
“人类——即使那些在这个问题上受过训练的人,就像我们的一些竞争对手一样——也会出错,错过看不见或听不见的东西,”科尔曼说。
在 Reality Defender,“AI 被用来检测 AI,”科尔曼告诉 NBC 新闻。AI 生成的“视频对你我来说可能越来越逼真,但 AI 可以看到和听到我们无法看到和听到的东西。”
同样,据 McAfee 的首席技术官史蒂夫·格罗布曼说,McAfee 的 Scam Detector 软件“监听视频的音频以寻找 AI 指纹,并分析它以确定内容是真实的还是 AI 生成的。”
然而,格罗布曼补充道,“新工具使假视频和音频看起来越来越真实,五分之一的人告诉我们,他们或他们认识的人已经成为深度伪造骗局的受害者。”
深度伪造的质量也因语言而异,因为目前常用语言(如英语、西班牙语或普通话)的 AI 工具比不常用语言的工具强大得多。
“随着新 AI 工具的出现,我们定期更新技术,并扩展到英语以外,以覆盖更多语言和背景,”格罗布曼说。
对深度伪造的担忧之前已经登上头条。不到一年前,许多观察者预测 2024 年选举将被深度伪造淹没。这大部分被证明是不真实的。
然而,直到今年,AI 生成的媒体,如图像、音频和视频,大部分与真实内容可区分。许多评论者发现 2025 年发布的模型特别逼真,威胁到公众区分真实、人类创建的信息和 AI 生成内容的能力。
谷歌在五月发布的 Veo 3 视频生成模型当时被称为“恐怖地准确”和“危险地逼真”,激发了一位评论者提问:“我们注定要失败吗?”