Google Veo 视频生成工具：如何用照片制作动态视频

109次阅读

共计 3220 个字符，预计需要花费 9 分钟才能阅读完成。

Google 本周发布了其 Veo 视频生成工具的最新版本，供拥有“Pro”或“Ultra”账户的 Gemini 人工智能程序用户使用。Veo 已经预览了一段时间，最新版本的新功能是可以通过上传静态图像作为初始帧来开始视频。

如何使用 Veo 从照片生成视频？用户只需输入提示，按下回车键，Veo 会使用上传的照片作为参考点生成一个八秒的视频，并添加声音，包括音乐、脚步声和其他细节。视频生成通常需要几分钟时间。

在测试中，用户发现 Veo 的实现既令人着迷又有点诡异。例如，用户尝试了几张自己拍摄的静态图像，包括自拍和一些街头摄影。看到自己的照片“活”起来，令人感到不安。然而，视频的质量与摄影图像保持一致，场景的透视通常保持得很好，背景中的移动物体在某些情况下也协调一致。

例如，这里有一张用户在曼哈顿东河海滨长廊拍摄的慢跑者照片。用户给 Veo 的提示是：“请制作一个视频，让慢跑者继续沿着长廊跑向远方。”慢跑者的运动效果很好，空间中的运动也像是从摄影师的角度拍摄的。

从技术角度来看，这是一个相当显著的成就。记住，这是八秒的 720p 分辨率视频，以标准电影帧率 24 帧每秒渲染。这意味着 Veo 必须在几分钟内从初始图像创建 192 帧。考虑到用户付出的努力如此之少，很容易忽略从纯技术角度来看这是多么重要。云端计算的力量在这样的事情中真正显现出来。

然而，用户也看到了 Google 对帧的预测产生的伪影，给视频带来了一种诡异的质感。例如，右边的慢跑者看起来并不像照片中的慢跑者，只是有些相似（头发不同，步伐不同）。

另一个伪影是，在照片拍摄的实际时刻，画面左侧向镜头移动的人物是在散步，而不是慢跑。这在图像中应该是很清楚的。但 Veo 也将这个人渲染成了慢跑者。

另一个问题出现在左上角的 FDR Drive 高速公路上。可以看到车辆在移动过程中神秘地消失了。这是 Veo 视频的一个常见问题，程序无法完全保持连续性。

当用户提交了一张东村 7 街一家名为 7B 或马蹄铁酒吧的照片时，出现了一个令人惊讶的成就。用户添加了提示：“你能展示这个女人走过建筑吗？”生成的视频展示了良好的街道透视效果，但真正令人惊讶的是，它成功填充了建筑看不见的一侧门上的白色标志，显示了马蹄铁符号。这表明 Veo 能够在某些数据中找到酒吧的完整信息，这相当令人惊叹。

然而，随着视频转向角落，Veo 填充的看不见的建筑并不是那条街上的实际建筑，而是 Veo 提出的一个相当不错的替代品。注意一个明显的伪影：Veo 给行走的人戴了一顶蓝色的帽子，这似乎是基于照片中的人走在建筑蓝色标志前而错误添加的。

有些伪影更加明显。在第二张街头摄影中，用户上传了一张某人穿着白靴子坐在地铁车厢里的照片。用户给出的提示是：“穿白靴子的人从座位上站起来，离开火车。”生成的结果相当引人注目，对于这个人物可能如何移动的近似效果也相当不错。然而，这个人并没有离开火车。

当用户坚持使用第二个提示：“这很棒，但有一个调整。能否展示火车车厢的门打开，穿白靴子的人实际走出门离开火车？”，Veo 生成了第二个版本。这一次，至少展示了这个人走向出口，门被展示为滑动打开。然而，这里有几个伪影未能通过现实和一致性测试。首先，没有人会在纽约市地铁车厢的末端下车；他们会在侧门下车，因为站台在那里。其次，车厢末端展示的滑动门在纽约市地铁车厢中并不存在。那些出口只有一扇滑动门，而不是两扇。

第三，从原始静态图像中可以清楚地看到，根据光线和通过车厢后窗看到的细节，这不是列车的最后一节车厢；后面还有另一节车厢。然而，当视频中的门打开时，用户看到的是站台和轨道，这表明这节车厢现在是列车的最后一节车厢。这是 Veo 无法从细节中正确推断环境整体结构的一个例子。

最后但同样重要的是，在第四个不一致中，用户可以通过打开的门看到站台直接在火车下方，这意味着火车是在站台上行驶，而不是在轨道上。

用户提交了一张曼哈顿列克星敦大道的雨夜照片，并要求“在这个街景中制作一个雷电和暴雨的视频。”结果相当卡通化，但肯定是一个有趣的时刻，符合预期。

将自己的形象放入 Veo 有其特殊的诡异感或趣味感，或者两者兼而有之，这取决于用户的幽默感。用户首先使用了一张非常黑暗的浴室自拍。用户对富有想象力的动画范围印象深刻。然而，用户的面部特征似乎急剧变形，变成了别人的样子，用户不确定是谁。（有时有人告诉用户，用户看起来像乐队 Radiohead 的 Thom Yorke。）

在另一个例子中，用户使用了 ZDNET 的头像，并询问 Veo：“你能制作一个视频，展示这个男人跳恰恰舞吗？”用户喜欢生成的动作、伴随的音乐以及非常响亮的靴子声，这非常有趣。然而，诡异的部分是，在没有进一步提示的情况下，Veo 将用户的脸部保持为僵硬的面具表情，这在舞蹈视频中是没有意义的。事实上，用户的头部根本没有移动；它是固定的。

用户上传了另一张自拍，拍摄于拉斯维加斯的凯撒宫赌场和酒店，并提示：“请制作一个视频，展示这个穿皮夹克的男人与背景中的维纳斯雕像跳探戈。”Veo 没有成功让用户跳舞，但生成的由用户形象表演的节目很有趣。音乐也是如此。注意，用户的皮夹克袖子不知何故变成了黑色。

用户猜测操纵历史人物可能不被允许，于是尝试创建一个历史混搭来测试这一点。用户上传了一张前美国副总统约翰·C·卡尔霍恩的照片，并要求 Veo 制作一个卡尔霍恩跳恰恰舞的视频。Veo 开始制作视频，然后退出，并显示消息：“我无法生成该视频。尝试描述另一个想法。您还可以获取如何编写提示的提示，并查看我们的视频政策指南。”

用户随后尝试上传了一张演员 / 导演斯嘉丽·约翰逊的照片，并请求“一个这个女人笑的视频”。它再次开始，然后退出，并显示相同的错误消息。

用户用自己的头像作为非历史、非名人人物再次检查了这个问题，并能够让 Veo 制作一个自己笑的视频（尽管看起来完全不像原始头像）。这表明 Veo 可能内置了防止操纵历史或流行文化图像的安全措施，尽管用户无法确定。

你应该尝试 Google Veo 吗？预览中的 Veo 服务肯定不是没有故障的。在用户最初几次成功后，用户反复收到警告，用户必须等待才能制作更多视频，因为该服务目前有速率限制。用户论坛中有关于此的投诉，包括人们被拒绝服务超过 24 小时，以及一位志愿者产品“专家”对此的详细解释。基本上，视频是带宽、计算和内存密集型的，所以 Google 在开始时限制使用并不奇怪。

最直接的解决方案是升级到 Gemini 的更高层级，“Ultra”计划，尽管这意味着从每月 19.99 美元升级到每月 249 美元（前三个月折扣为 125 美元）。这只是一个相当高的价格，只是为了绕过看似相当严格的限制。

即使用户订阅了 Ultra，用户在制作了五个视频后也达到了限制，并收到错误消息“出了点问题”。用户论坛中的另一个解释帖子表明，Ultra 计划没有明确限制；这是一个关于云服务中 AI“信用”的模糊问题。

这种突然关闭与 Google 的服务条款相矛盾，该条款说：“当您接近限制时，您会收到通知。通知会告诉您还有多少视频。”Ultra 的替代方案更加复杂，使用专业的“Flow”开发工具而不是 Gemini 应用。

除了使用限制外，用户还抱怨技术故障，例如视频没有声音。总体印象是，这仍然是一个非常 beta 的产品。

用户可能会担心深度伪造视频的危险。Google 已经发布了关于 Gemini 应用安全措施的几点，但没有关于 Veo 视频的明确声明。总体而言，Veo 似乎是一个有趣的技巧，尽管在最初的着迷消退后，Veo 并没有保持用户的兴趣。作为摄影师，用户更感兴趣的是一个真实的瞬间，而不是 192 个不真实的瞬间。

对于那些不从事电影行业的人来说，Veo 可能提供了一个窗口，展示了 AI 如何越来越多地用于替代演员，或扩展形象以创造动作，而无需实际雇佣演员。在更强的算法和更多数据（场景数据、角色数据等）的支持下，用户可以想象好莱坞可以使用这项技术来制作服务于真实故事的动态图像。这是一个关于 AI 时代视频发展方向的开眼之见。

正文完