Google Veo 视频生成工具：从照片到视频的AI魔法

110次阅读

共计 900 个字符，预计需要花费 3 分钟才能阅读完成。

Google 本周向 Gemini 人工智能程序的用户推出了最新版本的 Veo 视频生成工具，该工具现已在“Pro”和“Ultra”账户中提供。Veo 的预览版已经存在一段时间，但最新版本的新功能是可以通过上传静态图像作为初始帧来生成视频。

使用 Veo 从照片生成视频的过程非常简单。用户只需输入提示，按下回车键，Veo 会使用上传的照片作为参考点，生成一个八秒的视频，并以该照片为视频的第一帧。Veo 还会添加声音，包括音乐、脚步声和其他背景音效。视频生成通常需要几分钟时间。

Google Veo 视频生成工具：从照片到视频的 AI 魔法

在目前的测试中，Veo 的实现既令人着迷，又有点令人不安。用户上传静态图像后，Veo 会生成一个八秒的视频，虽然视频的质量与照片一致，但有时会出现一些伪影，使得视频具有一种诡异的感觉。

例如，当我上传一张慢跑者在曼哈顿东河滨大道上跑步的照片时，Veo 生成的视频中慢跑者的动作很好，空间中的移动也像是从摄影师的角度拍摄的。然而，右侧的慢跑者看起来与照片中的慢跑者并不完全相同，只是有些相似。此外，画面左侧向镜头移动的人实际上是在散步，而不是慢跑，但 Veo 也将那个人渲染为慢跑者。

另一个例子是我上传了一张东村 7th 街上一家名为 7B 或马蹄铁酒吧的照片，并添加了提示：“你能展示那个女人走过建筑物的场景吗？”生成的视频展示了良好的街道透视感，但真正令人惊讶的是，它设法填充了建筑物看不见的一侧门上的白色标志，显示了马蹄铁符号。这表明 Veo 能够从某些数据中找到酒吧的完整信息，这相当令人惊叹。

尽管 Veo 的视频生成功能令人印象深刻，但用户也会看到一些伪影，这些伪影使视频具有一种诡异的感觉。例如，当我上传一张某人穿着白靴子坐在地铁车厢里的照片时，Veo 生成的视频中这个人并没有下火车，而是走向出口，门被显示为滑动打开。然而，这里的几个伪影未能通过现实和一致性测试。

总的来说，Veo 的视频生成功能是一个有趣的技巧，尽管在最初的着迷感消退后，它并没有保持我的兴趣。作为摄影师，我更喜欢一个真实的时刻，而不是 192 个不真实的时刻。对于那些不涉及电影行业的人来说，Veo 可能提供了一个窗口，展示 AI 如何越来越多地用于替代演员，或扩展形象以创造动作，而无需实际雇佣演员。

正文完