Soul App 开源 AI 模型 SoulX-Podcast：为播客注入类人自然度

67次阅读

共计 1553 个字符，预计需要花费 4 分钟才能阅读完成。

上海，2025 年 10 月 30 日 /PRNewswire/ — 社交平台 Soul App 的 AI 技术团队 Soul AI Lab 近日开源了其语音播客生成模型 SoulX-Podcast。这一突破性技术专为多说话者、多轮对话场景设计，支持普通话、英语、四川话和粤语等多种语言及方言，并能够模拟丰富的副语言风格。该模型能够稳定生成超过 60 分钟的自然流畅的多轮语音对话，展现出精准的说话者切换和细腻的韵律变化。

SoulX-Podcast 不仅在播客制作领域表现出色，在一般语音合成和语音克隆任务中也展现了卓越性能，为用户带来更真实、富有表现力的语音体验。

演示页面：https://soul-ailab.github.io/soulx-podcast
技术报告：https://arxiv.org/pdf/2510.23541
源代码：https://github.com/Soul-AILab/SoulX-Podcast
Hugging Face：https://huggingface.co/collections/Soul-AILab/soulx-podcast

Soul App 开源 AI 模型 SoulX-Podcast：为播客注入类人自然度

SoulX-Podcast 的核心能力包括流畅的多轮对话、多方言支持、超长播客生成。

多轮对话的零样本克隆：SoulX-Podcast 在零样本播客生成场景中展现了卓越的语音合成能力。它不仅能够准确再现参考音频的音色和风格，还能根据对话上下文动态调整韵律和节奏，确保每次对话都自然且富有节奏感。无论是在延长的多轮对话中，还是在情感细腻的交流中，SoulX-Podcast 始终保持着声音的一致性和真实的表达。此外，该模型支持各种副语言元素的可控生成，如笑声和清嗓声，增强了合成语音的即时性和表现力。

多语言和跨方言语音克隆： 除了普通话和英语外，SoulX-Podcast 还支持包括四川话、河南话和粤语在内的几种主要中国方言。更值得注意的是，该模型实现了跨方言语音克隆——即使仅提供普通话参考语音，它也能灵活生成具有这些目标方言语音特征的自然语音。

超长播客生成：SoulX-Podcast 支持超长播客的生成，同时在整个过程中保持稳定的音色和风格。

协作探索：扩展 AI 和社交互动的可能性

尽管近期开源研究已开始探索播客和对话场景中的多说话者、多轮语音合成，但现有工作仍主要局限于普通话和英语，对广泛使用的中国方言如粤语、四川话和河南话的支持有限。此外，在多轮语音对话中，适当的副语言表达，如叹息、呼吸和笑声，对于增强生动性和自然度至关重要，但这些细微差别在当前模型中仍未得到充分探索。

SoulX-Podcast 旨在解决这些差距。通过整合对延长的多说话者对话的支持、全面的方言覆盖和可控的副语言生成，该模型使合成的播客语音更接近现实世界的交流，使其对听众更具表现力、吸引力和沉浸感。

SoulX-Podcast 的整体架构采用了广泛使用的“LLM + 流匹配”语音生成范式，其中 LLM 对语义标记进行建模，流匹配模块进一步对声学特征进行建模。对于语义标记建模，SoulX-Podcast 建立在 Qwen3-1.7B 基础模型之上，使用其原始参数进行初始化，以充分利用其强大的语言理解能力。

尽管 SoulX-Podcast 专为多说话者、多轮对话设计，但它在传统的单说话者语音合成和零样本语音克隆任务中也表现出色。在播客生成基准测试中，与最近的相关工作相比，该模型在语音清晰度和说话者相似度方面都取得了顶级成绩。

SoulX-Podcast 的开源发布标志着 Soul 与开源社区合作的重要里程碑。Soul AI 技术团队宣布计划继续增强核心交互能力，包括对话语音合成、全双工语音通话、类人表现力和视觉交互，并加速这些技术在各种应用场景中的集成。最终目标是提供更具沉浸感、智能化和情感共鸣的体验，促进用户的幸福感和更强的归属感。

正文完