Lightricks 开源 LTX-2 模型,音视频生成挑战 Sora 与 Veo

22次阅读
没有评论

共计 1736 个字符,预计需要花费 5 分钟才能阅读完成。

在 AI 视频生成领域,一场新的开源浪潮正挑战着巨头们的地位。以色列公司 Lightricks 近日宣布,开源其拥有 190 亿参数的视听生成模型 LTX-2。这一重磅发布意味着,专业创作者和开发者现在可以直接获取一个能够从文本描述直接生成音视频同步内容的高性能工具,并且其宣称在生成速度上远超竞争对手。

根据 Lightricks 发布的 技术报告 LTX-2 模型 能够仅凭一个文本提示,就生成最长可达 20 秒的视频,并自动配上完全同步的立体声音频。这不仅仅是简单的背景音乐,而是包括了与口型精准匹配的语音、契合场景的背景音效、拟音效果以及烘托氛围的音乐。Lightricks 表示,完整版模型可生成最高 4K 分辨率、每秒 50 帧的高质量视频。

研究团队指出了当前多数视听生成方法的根本缺陷。许多系统采用顺序处理流程——要么先生成视频再添加音频,要么反之。这种解耦方式无法捕捉视觉与听觉之间真正的联合分布。例如,唇语同步主要依赖音频信号,但声音所处的声学环境却由视觉场景决定。只有采用统一、联合的建模方式,才能有效处理这种双向依赖关系。

非对称架构:为音视频量身定制

LTX-2 模型 的核心是一个非对称的双流 Transformer 架构,总参数量为 190 亿。其中,视频流独占 140 亿参数,远多于音频流的 50 亿。研究人员解释,这种参数分配反映了两种模态截然不同的信息密度。

两个数据流使用各自独立的变分自编码器处理对应的模态。这种设计使得模型能为视频的时空结构采用三维旋转位置嵌入,同时为音频的纯时间维度采用一维嵌入。两个流通过双向交叉注意力层连接,从而能够精确地将视觉事件(如物体落地)与对应的声音关联起来。

Lightricks 开源 LTX-2 模型,音视频生成挑战 Sora 与 Veo
交叉注意力图直观展示了 LTX-2 如何链接视觉与音频元素。

在文本理解方面,LTX-2 采用 Google 的 Gemma3-12B 作为多语言编码器。系统并非仅提取语言模型最后一层的信息,而是整合所有解码器层的信息。此外,模型还引入了“思维标记”——即在输入序列中添加额外占位符,为模型在处理复杂提示时提供更多的“思考”空间,然后再开始生成内容。

速度与性能:挑战行业标杆

基准测试显示,LTX-2 在推理速度上优势显著。在 Nvidia H100 GPU 上,该模型以 720p 分辨率生成 121 帧内容,每步仅需 1.22 秒。相比之下,仅生成视频、不含音频的同类模型 Wan2.2-14B 则需要 22.30 秒。Lightricks 称,这意味着 LTX-2 快了近 18 倍。

其 20 秒的最大生成时长也超越了主要竞争对手:谷歌的 Veo 3 为 12 秒,OpenAI 的 Sora 2 为 16 秒,Character.AI 的开源模型 Ovi 则为 10 秒。在人类偏好评估中,LTX-2 的表现“显著优于”Ovi 等开源方案,并与 Veo 3Sora 2 等闭源商业模型的结果相当。

当然,模型也存在局限。其生成质量因语言而异——对于训练数据中代表性不足的语言或方言,语音合成的准确性会下降。在多人对话场景中,模型偶尔会将台词分配给错误的说话者。超过 20 秒的生成序列则可能出现时间线漂移和音画同步质量下降的问题。

开源策略:对封闭生态的挑战

Lightricks 将此次开源决策视为对当前市场主流模式的一种回应。“我实在不明白如何通过一个封闭的 API 来实现它,”Lightricks 联合创始人 Zeev Farbman 在发布视频中谈及当前视频生成模型的承诺时表示。他认为行业陷入了一个两难境地:一方面,模型能产生令人惊叹的效果;另一方面,它们离专业创作者所需的精细控制水平还相去甚远。

该公司也表明了其伦理立场。“人工智能应当增强人类的创造力和智慧。令我担忧的是,我的‘增强能力’会掌握在别人手中,”Farbman 补充道。他们的目标是让创作者能在自己的硬件上、按照自己的条件运行 AI,并与广泛的社区共同做出伦理决策,而不是将这种能力外包给一个有着自身商业利益的特定实体。

此次 发布 内容不仅包括完整的模型权重,还提供了一个轻量化的蒸馏版本、多个 LoRA 适配器,以及一个支持多 GPU 的模块化训练框架。该模型针对 Nvidia 的 RTX 生态系统进行了优化,可在 RTX 5090 等消费级显卡及企业级系统上运行。模型权重与代码已在 GitHubHugging Face 开源,用户注册后也可在 该公司的内容平台上体验在线演示

正文完
 0
admin-gah
版权声明:本文于2026-01-12转载自the-decoder.com,共计1736字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码