与AI语音对话新体验：Hume EVI 3语音克隆功能评测

93次阅读

共计 1190 个字符，预计需要花费 3 分钟才能阅读完成。

你是否曾幻想过与自己的 AI 版本对话？现在，借助 Hume 公司最新推出的 Empathic Voice Interface (EVI) 3 模型，这一幻想已经部分成为现实。这款模型新增的“超现实语音克隆”功能，允许用户通过上传一段简短的语音录音，快速生成一个 AI 语音副本，并与之进行互动。,

Hume 公司于上周四宣布了这一新功能，用户只需上传一段 30 到 90 秒的语音录音，EVI 3 便能生成一个 AI 语音副本。尽管这一功能在某些方面表现出色，但仍存在一些不足。

与 AI 语音对话新体验：Hume EVI 3 语音克隆功能评测

在亲自体验中，我上传了自己的语音录音，并与 AI 生成的语音进行了对话。原本期待能感受到“恐怖谷效应”——即与某物互动时感觉几乎完全真实，但又有些不协调的微妙不适感——但结果却更像是我的音频卡通版本，略显失望。,

在某些方面，EVI 3 的语音克隆功能确实表现出色。它能够模仿我的语音停顿和嗓音沙哑，但在捕捉“说话者的个性特征”方面则显得力不从心。AI 生成的语音虽然友好且乐观，却过于夸张，缺乏真实感。

此外，当我尝试让 AI 模仿澳大利亚口音时，它虽然能够说出“g’day”和“mate”，但很快就回避了更复杂的尝试。无论我如何引导话题，AI 总是巧妙地将对话转回到我最初录制语音样本时讨论的内容，这让人联想到 Anthropic 公司去年的一项实验，其中 Claude 模型对金门大桥表现出了异常的着迷。,

AI 语音技术已经存在多年，但早期的语音助手如 Siri 和 Alexa 在现实性方面表现有限。相比之下，EVI 3 等新一代 AI 语音模型不仅能够用自然语言说话，还能模仿真实人类语音中的微妙变化、语调、特性和节奏。

Hume 公司首席执行官兼首席科学家 Alan Cowen 表示：“人类交流的一个重要部分是强调正确的词语，在正确的时间停顿，使用正确的语调。”EVI 3 的设计正是基于这一理念，能够识别哪些词语需要强调，什么会让人发笑，以及口音和其他语音特征如何与词汇互动。

然而，尽管 EVI 3 在技术上取得了显著进步，许多 AI 专家仍对其“理解”能力持保留态度。这些模型仅仅是为了检测和重建从大量训练数据中提取的模式，而非真正理解语义。,

尽管 EVI 3 的语音克隆功能存在一些不足，但其卓越的品质仍令人印象深刻。生成式 AI 技术的快速发展，从 ChatGPT 的公开发布到能够逼真模拟人类语音的 AI 模型，以及 Google 的 Veo 3 等工具，都在不断推动这一领域的进步。

然而，随着 AI 语音技术的不断进步，也带来了新的挑战和风险。例如，上周有人使用 AI 模仿美国国务卿 Marco Rubio 的声音，试图欺骗政府官员。这提醒我们，在享受 AI 技术带来的便利的同时，也需警惕其潜在的滥用风险。

总的来说，EVI 3 的语音克隆功能虽然尚不完美，但其展现出的潜力令人期待。随着技术的不断改进，未来我们或许能够与自己的 AI 版本进行更加真实和深入的对话。

正文完