共计 1056 个字符,预计需要花费 3 分钟才能阅读完成。
最近,OpenAI 在视频生成领域掀起了一波浪潮,推出了 Sora Turbo,这是他们先进的文本到视频生成模型,专为 ChatGPT Plus 用户提供。这一举动无疑提高了行业的标准。现在,Google 也不甘示弱,准备通过发布其最新的视频生成器 Veo 2 来迎战。
就在周一,Google 正式推出了 Veo 2,这是一个文本到视频的生成器,据称在之前的模型基础上有了显著的改进。特别是,它更好地理解了现实世界的物理学,这让生成的视频更加细致和真实。你能想象吗?生成的视频甚至可以达到 4K 分辨率!而且,它还能解决一些常见的视频生成问题,比如那些让人头疼的多余手指的幻觉问题。
在与其他领先视频模型(如 Sora Turbo、Kiling v1.5 和 Meta Movie Gen)的对比中,Veo 2 在整体性能和提示遵循方面表现尤为突出,得到了人类评分员的高度评价。
不仅如此,Veo 2 还懂得电影摄影语言,比如特定类型、镜头或角度。举个例子,如果你说“浅景深”,它就知道要模糊背景,突出主体。下面的视频就是用一个特别指定的镜头创建的,“使用柯达 Portra 400 胶片上的 35mm 镜头拍摄”。
现在,这个模型已经向公众开放,你可以在 Google Labs 的 VideoFX 中体验。不过,目前还是需要填写一个早期访问等待名单表格,提供一些基本信息,比如年龄、姓名、居住地、相关工作,以及你是怎么听说它的。Google 表示,提交的内容会滚动审核,所以耐心等待吧。
此外,Google 还分享了其 Imagen 3 图像生成模型的改进,声称可以生成“更明亮和更好的构图”的图像。改进后的模型能够生成更多样化的风格,并且输出具有更高提示忠实度、更丰富细节和纹理的图像。
从今天开始,这个版本的 Imagen 3 将通过 Google Labs 的 ImageFX 向公众推出,与 VideoFX 不同,它不需要等待名单,可以直接体验。之前的 Imagen 3 版本已经非常强大,在 ZDNET 的 2024 年汇总中被评为最佳 AI 图像生成器。
最后,Google 还推出了一个新实验工具 Whisk,也可以在 Labs 中使用。这个工具允许用户创建图像——或者输入自己的图像——并将其转换为毛绒玩具、别针或贴纸风格的新图像。它利用了 Imagen 3 和 Gemini,为你的图像创建详细的描述,这些描述被输入到 Imagen 3 中以创建最终产品。
总的来说,Google 这次推出的 Veo 2 和 Imagen 3 的改进,无疑为 AI 生成领域带来了新的可能性。如果你对这些新技术感兴趣,不妨去 Google Labs 试试看,说不定会有意想不到的惊喜呢!