Google DeepMind推出Veo 2：挑战OpenAI的Sora视频生成AI

198次阅读

共计 1224 个字符，预计需要花费 4 分钟才能阅读完成。

Google DeepMind 最近推出了一款名为 Veo 2 的新视频生成 AI 模型，试图在视频生成领域与 OpenAI 的 Sora 一较高下。虽然目前还处于早期阶段，但 Veo 2 的潜力不容小觑。

Veo 2 是 Veo 的升级版，后者已经为谷歌的多个产品提供了支持。新模型能够生成高达 4K 分辨率、时长超过两分钟的视频片段，这在理论上比 OpenAI 的 Sora 强大得多——Sora 的分辨率仅为 1080p，时长也限制在 20 秒。不过，目前 Veo 2 在谷歌的实验性工具 VideoFX 中只能生成 720p、8 秒长的视频，与 Sora 的实际表现相比，似乎还没有完全展现出其理论上的优势。

Google DeepMind 推出 Veo 2：挑战 OpenAI 的 Sora 视频生成 AI

Veo 2 不仅在分辨率和时长上有所提升，还在视频生成的质量和控制上进行了多项改进。例如，它可以根据文本提示或结合文本和参考图像生成视频，并且能够生成多种风格的视频。DeepMind 特别强调了 Veo 2 在物理和摄像机控制方面的进步，使得生成的视频更加清晰，尤其是在动态场景中。

此外，Veo 2 还能更真实地模拟运动、流体动力学（如咖啡倒入杯中）以及光的特性（如阴影和反射）。DeepMind 还声称，Veo 2 在处理人类表情和细微动作方面也有所提升，尽管目前仍有一些不足之处，比如在某些情况下生成的角色看起来仍然有些“诡异”。,

尽管 Veo 2 在某些方面表现出色，但它仍然存在一些明显的不足。Collins 承认，Veo 2 在连贯性和一致性方面还有待提高，尤其是在处理复杂提示和长时间视频时。此外，角色一致性和复杂细节的生成也是未来的改进方向。

为了进一步提升模型的表现，DeepMind 正在与一些知名艺术家和制片人合作，包括 Donald Glover、The Weeknd 等，以更好地理解他们的创作过程，并将这些经验应用到 Veo 2 的开发中。,

Veo 2 的训练数据来源并未完全公开，但考虑到谷歌拥有 YouTube，很可能有一部分训练数据来自 YouTube。尽管 DeepMind 提供了工具，允许网站管理员阻止其模型抓取数据，但创作者无法从现有的训练集中删除自己的作品。这引发了一些关于版权和合理使用的争议，尤其是在 AI 技术可能对创意产业造成冲击的背景下。

为了应对这些挑战，DeepMind 采取了一些措施，比如使用提示级过滤器来防止生成暴力或露骨内容，并通过专有的水印技术 SynthID 来标记生成的视频，以减少深度伪造的风险。,

除了 Veo 2，DeepMind 还宣布了对其图像生成模型 Imagen 3 的升级。新版本的 Imagen 3 能够生成更明亮、构图更好的图像，风格涵盖写实主义、印象派和动漫等多种类型。这一升级也更加忠实于提示，并能渲染出更丰富的细节和纹理。

总的来说，Google DeepMind 在视频和图像生成领域的持续创新，无疑为 AI 技术的未来发展提供了更多可能性。尽管 Veo 2 和 Imagen 3 目前还存在一些局限性，但随着技术的不断进步，我们有理由期待它们在未来能够带来更多惊喜。

正文完