Runway推出Gen-3 Alpha AI视频合成模型，挑战OpenAI的Sora

246次阅读

共计 946 个字符，预计需要花费 3 分钟才能阅读完成。

周日，Runway 宣布了一款名为 Gen-3 Alpha 的新 AI 视频合成模型，该模型仍在开发中，但其视频质量似乎与今年早些时候亮相的 OpenAI 的 Sora 相当。Gen-3 Alpha 能够根据文本提示生成新颖的高清视频，内容从真实人物到超现实怪物踩踏乡村。

Runway 推出 Gen-3 Alpha AI 视频合成模型，挑战 OpenAI 的 Sora

与 Runway 在 2023 年 6 月推出的先前最佳模型不同，后者仅能创建两秒长的片段，据报道 Gen-3 Alpha 可以创建 10 秒长的视频片段，内容涉及人物、地点和事物，其连贯性和一致性轻松超越了 Gen-2。虽然 10 秒听起来很短，但考虑到 Runway 的计算预算相对 OpenAI 更为有限，并且实际上已有向商业用户交付视频生成能力的记录，这一进步是显著的。

Gen-3 Alpha 当前不会为视频片段生成音频，并且其时间上连贯的生成依赖于高质量的训练材料。尽管如此，Runway 在过去一年中在视觉保真度上的改进是难以忽视的。

AI 视频合成领域近期非常活跃，包括北京快手科技推出的中文模型Kling，以及 Luma AI 的Luma Dream Machine。这些模型在生成视频的细节和连贯性上与 Sora 相匹配，尽管 Luma Dream Machine 的视频通常缺乏连贯性。

作为文本到视频领域的先驱之一，Runway 最近发现自己成为了表情包的笑柄，这些表情包显示其 Gen- 2 技术与较新的视频合成模型相比失宠。这可能促使了 Gen-3 Alpha 的宣布。

Gen-3 Alpha 特别展示了创建“富有表现力”的人类角色的能力，这些角色具有一系列动作、手势和情感。虽然提供的示例主要是人们缓慢地凝视和眨眼，但它们看起来很真实。

生成的演示视频还包括更多超现实的视频合成示例，展示了 AI 技术的创新和多样性。

Gen- 3 将支持 Runway 的各种 AI 编辑工具，包括 Multi Motion Brush、Advanced Camera Controls 和Director Mode。它可以基于文本或图像提示创建视频，展示了其在 AI 视频合成领域的强大能力。

Runway 表示，Gen-3 Alpha 是基于新基础设施训练的一系列模型的首个，该基础设施设计用于大规模多模态训练，朝着其所谓的“通用世界模型”的开发迈出了一步。这些模型构建环境的内部表示，并使用这些表示来模拟这些环境中的未来事件，展示了 AI 技术的深远影响和潜力。

正文完

发表至： AI行业动态

2024-06-19 09:06

0