共计 717 个字符,预计需要花费 2 分钟才能阅读完成。
DeepMind, 隶属于 Google 的人工智能研究实验室, 宣布正在研发一种新型 AI 技术, 旨在为视频内容自动生成配乐。这项技术名为 V2A, 即 ’ 视频到音频 ’ 的缩写, 被视为 AI 生成媒体领域的一个重要突破。
尽管已有多个机构开发出视频生成 AI 模型, 但这些模型通常无法同步创造音效。DeepMind 在其官方博客中指出, 视频生成技术正迅速发展, 但许多系统仅能生成无声视频。V2A 技术有望成为一种创新方法, 使生成的视频更加生动。
V2A 技术通过使用与视频相匹配的配乐描述来创作音乐、音效甚至对话, 确保声音与视频的角色和基调相符。此外, 该技术还采用了 DeepMind 的深度伪造对抗技术 SynthID 进行水印处理。V2A 的 AI 模型, 一种扩散模型, 接受了声音、对话记录和视频片段的组合训练, 能够将特定音频事件与视觉场景关联, 并响应注释或记录中的信息。
关于训练数据是否包含版权内容及数据创建者是否知情, 目前尚无明确信息。DeepMind 表示, 为了确保技术对创意社区产生积极影响, 正在收集顶尖创作者和电影制作人的意见, 并将这些反馈用于指导研究和开发。在向更广泛的公众开放之前, V2A 技术将接受严格的安全评估和测试。
尽管 V2A 技术具有创新性, 但 DeepMind 也承认其并非完美。由于模型未在包含人工制品或失真的视频上进行大量训练, 因此无法为这些视频创建高质量音频。此外, 生成的音频效果也并非完全令人信服。因此, DeepMind 表示不会急于向公众发布这项技术。
DeepMind 将 V2A 技术视为对档案管理员和从事历史镜头工作的人士特别有用的工具。然而, 生成式 AI 技术的发展也引发了关于电影和电视行业未来的担忧。确保这些工具不会导致职业消失, 将需要强有力的劳动保护措施。