共计 555 个字符,预计需要花费 2 分钟才能阅读完成。
ElevenLabs 最新推出的 v3 模型,被誉为其“最具表现力”的文本转语音(TTS)AI 模型,能够以多种情感表达超过 70 种语言。这款模型不仅支持多说话人对话,还能通过音频标签如 [兴奋]、[叹息]、[笑声] 和[耳语]来增强语音的真实感。
在 X 上分享的一个演示中,v3 展示了生成两个角色的声音,一男一女,他们正在轻松地谈论自己新获得的能够以更人性化的声音说话的能力。相比之前的模型,v3 的语音更加人性化,能够表现出广泛的情感和细微的交流特征。
目前,该模型已进入公开 alpha 测试,并且在本月底之前价格降低了 80%。ElevenLabs 并不是唯一一家竞相构建更逼真的 TTS 模型的公司,大型科技公司正将其作为一种更直观和易于访问的 AI 交互方式进行推广。
例如,五月底,ElevenLabs 的竞争对手 Hume AI 推出了其共情语音界面(EVI)3 模型,该模型允许用户通过自然语言描述生成自定义语音。类似的细微对话能力现在也通过 Google 的 Gemini 2.5 Pro Flash 模型提供。
随着科技开发者展望人机交互的未来,AI 生成的语音已成为创新的主要焦点。与 Siri 和 Alexa 这样的自动化助手相比,v3 生成的声音更加生动和逼真,能够更好地处理复杂的对话任务。
想了解更多关于 AI 的故事?订阅 Innovation,我们的每周通讯。