共计 1224 个字符,预计需要花费 4 分钟才能阅读完成。
Google DeepMind 最近推出了一款名为 Veo 2 的新视频生成 AI 模型,试图在视频生成领域与 OpenAI 的 Sora 一较高下。虽然目前还处于早期阶段,但 Veo 2 的潜力不容小觑。
Veo 2 是 Veo 的升级版,后者已经为谷歌的多个产品提供了支持。新模型能够生成高达 4K 分辨率、时长超过两分钟的视频片段,这在理论上比 OpenAI 的 Sora 强大得多——Sora 的分辨率仅为 1080p,时长也限制在 20 秒。不过,目前 Veo 2 在谷歌的实验性工具 VideoFX 中只能生成 720p、8 秒长的视频,与 Sora 的实际表现相比,似乎还没有完全展现出其理论上的优势。
Veo 2 的新功能
Veo 2 不仅在分辨率和时长上有所提升,还在视频生成的质量和控制上进行了多项改进。例如,它可以根据文本提示或结合文本和参考图像生成视频,并且能够生成多种风格的视频。DeepMind 特别强调了 Veo 2 在物理和摄像机控制方面的进步,使得生成的视频更加清晰,尤其是在动态场景中。
此外,Veo 2 还能更真实地模拟运动、流体动力学(如咖啡倒入杯中)以及光的特性(如阴影和反射)。DeepMind 还声称,Veo 2 在处理人类表情和细微动作方面也有所提升,尽管目前仍有一些不足之处,比如在某些情况下生成的角色看起来仍然有些“诡异”。,
挑战与改进空间
尽管 Veo 2 在某些方面表现出色,但它仍然存在一些明显的不足。Collins 承认,Veo 2 在连贯性和一致性方面还有待提高,尤其是在处理复杂提示和长时间视频时。此外,角色一致性和复杂细节的生成也是未来的改进方向。
为了进一步提升模型的表现,DeepMind 正在与一些知名艺术家和制片人合作,包括 Donald Glover、The Weeknd 等,以更好地理解他们的创作过程,并将这些经验应用到 Veo 2 的开发中。,
训练与安全
Veo 2 的训练数据来源并未完全公开,但考虑到谷歌拥有 YouTube,很可能有一部分训练数据来自 YouTube。尽管 DeepMind 提供了工具,允许网站管理员阻止其模型抓取数据,但创作者无法从现有的训练集中删除自己的作品。这引发了一些关于版权和合理使用的争议,尤其是在 AI 技术可能对创意产业造成冲击的背景下。
为了应对这些挑战,DeepMind 采取了一些措施,比如使用提示级过滤器来防止生成暴力或露骨内容,并通过专有的水印技术 SynthID 来标记生成的视频,以减少深度伪造的风险。,
Imagen 3 的升级
除了 Veo 2,DeepMind 还宣布了对其图像生成模型 Imagen 3 的升级。新版本的 Imagen 3 能够生成更明亮、构图更好的图像,风格涵盖写实主义、印象派和动漫等多种类型。这一升级也更加忠实于提示,并能渲染出更丰富的细节和纹理。
总的来说,Google DeepMind 在视频和图像生成领域的持续创新,无疑为 AI 技术的未来发展提供了更多可能性。尽管 Veo 2 和 Imagen 3 目前还存在一些局限性,但随着技术的不断进步,我们有理由期待它们在未来能够带来更多惊喜。