共计 946 个字符,预计需要花费 3 分钟才能阅读完成。
周日,Runway 宣布了一款名为 Gen-3 Alpha 的新 AI 视频合成模型,该模型仍在开发中,但其视频质量似乎与今年早些时候亮相的 OpenAI 的 Sora 相当。Gen-3 Alpha 能够根据文本提示生成新颖的高清视频,内容从真实人物到超现实怪物踩踏乡村。
与 Runway 在 2023 年 6 月推出的先前最佳模型不同,后者仅能创建两秒长的片段,据报道 Gen-3 Alpha 可以创建 10 秒长的视频片段,内容涉及人物、地点和事物,其连贯性和一致性轻松超越了 Gen-2。虽然 10 秒听起来很短,但考虑到 Runway 的计算预算相对 OpenAI 更为有限,并且实际上已有向商业用户交付视频生成能力的记录,这一进步是显著的。
Gen-3 Alpha 当前不会为视频片段生成音频,并且其时间上连贯的生成依赖于高质量的训练材料。尽管如此,Runway 在过去一年中在视觉保真度上的改进是难以忽视的。
AI 视频合成领域近期非常活跃,包括北京快手科技推出的中文模型Kling,以及 Luma AI 的Luma Dream Machine。这些模型在生成视频的细节和连贯性上与 Sora 相匹配,尽管 Luma Dream Machine 的视频通常缺乏连贯性。
作为文本到视频领域的先驱之一,Runway 最近发现自己成为了表情包的笑柄,这些表情包显示其 Gen- 2 技术与较新的视频合成模型相比失宠。这可能促使了 Gen-3 Alpha 的宣布。
Gen-3 Alpha 特别展示了创建“富有表现力”的人类角色的能力,这些角色具有一系列动作、手势和情感。虽然提供的示例主要是人们缓慢地凝视和眨眼,但它们看起来很真实。
生成的演示视频还包括更多超现实的视频合成示例,展示了 AI 技术的创新和多样性。
Gen- 3 将支持 Runway 的各种 AI 编辑工具,包括 Multi Motion Brush、Advanced Camera Controls 和Director Mode。它可以基于文本或图像提示创建视频,展示了其在 AI 视频合成领域的强大能力。
Runway 表示,Gen-3 Alpha 是基于新基础设施训练的一系列模型的首个,该基础设施设计用于大规模多模态训练,朝着其所谓的“通用世界模型”的开发迈出了一步。这些模型构建环境的内部表示,并使用这些表示来模拟这些环境中的未来事件,展示了 AI 技术的深远影响和潜力。