共计 1132 个字符,预计需要花费 3 分钟才能阅读完成。
一段极其逼真的单口喜剧演员讲笑话的视频,嘴唇与声音完美同步,这只是 Google 最新 AI 工具生成的几个走红视频之一。
从那个令人毛骨悚然的单口喜剧表演到演员们演唱蒜蓉面包颂的音乐片段,新发布的 Veo 3 功能示例在互联网上引发了兴奋和不安。
“当我第一次看到这个时,我的脊椎底部感到一阵寒意,因为通常表明这是 AI 生成的视频的迹象完全没有出现,也无法看到,”技术分析师 Carmi Levy 表示。
与早期的文本转视频工具不同,Veo 3 拥有准确的唇形同步、高质量的视觉效果以及生成同步音频的能力,包括语音、歌唱、音效和环境噪音。
“它使过程变得更加简单。这意味着最终输出在视觉和声音上都更加逼真,”Levy 说。“这意味着任何人,即使没有太多技能,也可以几乎从零开始创建极其逼真的视频。”
目前,Veo 3 仅在美国提供,并且仅面向 Google 的 249 美元高级订阅用户。根据早期用户反馈,其效果令人印象深刻,尤其是考虑到公共文本转视频生成的历史相对较短,仅在 2022 年才出现。
“它极其逼真,你根本不知道它不是真实的。这在多个层面上都是令人恐惧的,如果落入坏人之手,这项技术可能会造成很大的破坏,”Levy 说。
一个蒙太奇视频展示了 AI 生成的人重复“我们可以谈谈”和“我们应该谈什么?”等短语,引发了人们对这些工具如何被用来误导观众的担忧。
“这是一个重大的飞跃,不仅在声音的添加上,而且在它如何忠实地遵循给定的提示上,”Western University 的首席 AI 官 Mark Daley 表示。
Google 尚未透露用于训练 Veo 3 的数据是什么,但专家怀疑它可能包括来自 YouTube(Google 拥有的平台)的内容。
“神经网络需要大量数据来训练。所以如果你想要一个真正擅长创建图像和声音的模型,你需要一个巨大的图像和声音数据集,而 YouTube 可能是地球上最大的数据集,”Daley 说。
Aengus Bridgman 是 Media Ecosystem Observatory 的主任,该机构致力于保护加拿大的数字信息环境。他警告说,风险很高,尤其是随着这项技术变得越来越难以与真实镜头区分开来。
“有很多乐趣可以从中获得,但实际使用它来误导和欺骗人们始终是真正的担忧,”Bridgman 说。“普通人几乎不可能真正区分。”
他建议人们对不熟悉的来源持怀疑态度。
“关注你信任的内容创作者、名人或人物。你知道他们会进行某种验证,”他说。
“你绝对可以进行某种法医分析。数据中往往存在一些看起来不太一致的规律。但问题是,你通常需要原始文件,并且需要一些计算来进行真正的调查。”
尽管 Google 将 Veo 3 定位为创作者的突破,但一些人担心它可能会颠覆电影和电视行业并导致失业。
“完全由 AI 生成的电影发布只是时间问题,”Levy 说。