共计 2004 个字符,预计需要花费 6 分钟才能阅读完成。
在人工智能生成语音技术的前沿,来自 ElevenLabs、Hume AI 和 Descript 的文本转语音模型正在不断突破极限。本文将为您详细对比这三款热门文本转语音 AI 模型,帮助您找到最适合的工具。
目前有多种 AI 工具能够生成类似人类的语音。一些 AI 语音已经能够低语、笑以及执行其他富有表现力的技巧。文本转语音工具在真实性和目标受众方面各有不同。
AI 的最新创新,如构成许多生成式 AI 工具(包括大型语言模型、生成对抗网络(GANs)和扩散模型)基础的 Transformer 架构,导致了能够将文本提示转换为自然声音的人工语音的 AI 系统的兴起。现在有各种各样的文本转语音(TTS)系统可用,每个系统都有其特定的优点和缺点。,
ElevenLabs
ElevenLabs 被广泛认为是语音真实性的行业领导者,在我对该公司的 TTS 工具的实验中,我发现这一评估是相当准确的。但这种真实感更接近于训练有素的配音演员或专业播客者的声音,而不是普通的人类对话——它几乎有点过于精致。然而,从这个意义上说,它往往是许多企业和专业人士寻找可靠自动叙述的首选。它还支持 20 多种语言,进一步扩大了平台的覆盖范围和吸引力。
该公司上个月还发布了一款名为 v3 的新文本转语音模型作为研究预览。它支持 70 多种语言,用户可以通过音频标签为 AI 生成的对话增添趣味,使其笑、叹气或低语,仅举几例。
你可以注册一个 ElevenLabs 的免费账户,并自动获得 10,000 个免费积分。在左侧菜单中选择“Playground”下的“Text to Speech”选项,你将被重定向到一个页面,在那里你可以输入你希望 AI 系统叙述的自定义提示,从一系列自定义语音中进行选择,并调整速度和稳定性等参数。提示限制为 5,000 个字符,每次语音生成中的每个字符使用一个积分。,
Hume AI
Hume AI 的 TTS 模型是另一个最逼真语音生成工具的竞争者。该公司将其专有的 Empathic Voice Interface (EVI) 定位为一种能够捕捉和模拟人类语音细微差别的 AI 系统,赋予其更深层次的可信度。与 ElevenLabs 一样,Hume 提供了一组广泛的预制 AI 语音角色,每个角色都有其自己的表达特点。你还可以通过自然语言提示描述生成自定义语音。
为了测试它,我尽力描述了《指环王》中由 Sean Astin 饰演的 Samwise Gamgee 的声音。我的提示是:“温柔但勇敢的霍比特人,带有工人阶级的英国西部乡村口音——可能带有一点威尔士口音。他应该听起来害怕但决心完成他的任务。”
在我提示它说出电影中的一句著名台词“如果我再走一步,这将是我离家最远的一次”后,它生成了三个样本,语气和强调各不相同。所有这些都令人印象深刻;在我看来,它们包含了一定程度的真实性和情感深度,这是其竞争对手无法复制的。它们听起来不太像 Astin 的 Sam,但这无疑反映了我作为提示使用的描述并不完美。
你还可以通过在提示中添加“[pause]”来添加停顿,或者添加“y’all”等俚语来增强自定义语音的可信度。,
Descript
如果你正在寻找一款提供一系列编辑功能的 AI 语音生成工具,Descript 是你的选择。
该公司的 TTS 模型生成波形格式的音频文件,你可以像在 Adobe Audition 或类似平台上一样进行编辑。你可以从预制 AI 语音库中选择,或提交你自己声音的简短录音,系统将为你克隆它。
我通过让系统阅读一个简短的提示来测试语音克隆功能:“纽约市的夏天越来越残酷,我需要投资更多高质量的空调。”(这是真的。)第一次,AI 生成的我声音版本听起来确实像我,但也有一种机械感,削弱了真实感。
我决定再试一次,重新录制我的声音,这次取下蓝牙耳机,更慢、更刻意地阅读脚本。这次的结果更加真实——在我看来,这是一个更令人信服的我声音的模拟,比 Hume 提供的类似语音克隆功能更令人信服。
你还可以通过直接编辑书面提示来调整每一段 AI 生成的音频。当然,它并不完美;我的亲密朋友和家人可能会发现差异,但它可能会骗过我更疏远的熟人。我可以很容易地想象使用这个工具来叙述我自己的文章或用于一些类似的用例。
对于播客和其他内容创作者来说,Descript 还提供了一项 AI 功能,可以识别并消除填充词、不必要的停顿、“嗯”和“呃”以及其他不需要的音频片段。,
ZDNET 的建议
重要的是要记住,这只是目前可用的众多 TTS 模型中的三个,每个用户都会根据自己的职业角色、技术熟练程度、预算等有自己的偏好。在你选择一个平台并开始使用之前,花几分钟时间尝试不同的选项,看看哪些用户界面感觉最直观,哪些提供的功能最符合你的创意目标。还要记住,服务在使用你的数据方面有所不同。
无论你最终使用哪个平台,都要密切关注这项技术继续发展的速度。很快,我们可能会生活在一个充满 AI 声音的世界中——其中一些可能听起来就像你自己的声音。
想要更多关于 AI 的故事?查看我们的每周通讯 AI 排行榜 。