共计 1190 个字符,预计需要花费 3 分钟才能阅读完成。
你是否曾幻想过与自己的 AI 版本对话?现在,借助 Hume 公司最新推出的 Empathic Voice Interface (EVI) 3 模型,这一幻想已经部分成为现实。这款模型新增的“超现实语音克隆”功能,允许用户通过上传一段简短的语音录音,快速生成一个 AI 语音副本,并与之进行互动。,
EVI 3 语音克隆功能初体验
Hume 公司于上周四宣布了这一新功能,用户只需上传一段 30 到 90 秒的语音录音,EVI 3 便能生成一个 AI 语音副本。尽管这一功能在某些方面表现出色,但仍存在一些不足。
在亲自体验中,我上传了自己的语音录音,并与 AI 生成的语音进行了对话。原本期待能感受到“恐怖谷效应”——即与某物互动时感觉几乎完全真实,但又有些不协调的微妙不适感——但结果却更像是我的音频卡通版本,略显失望。,
语音克隆的优缺点
在某些方面,EVI 3 的语音克隆功能确实表现出色。它能够模仿我的语音停顿和嗓音沙哑,但在捕捉“说话者的个性特征”方面则显得力不从心。AI 生成的语音虽然友好且乐观,却过于夸张,缺乏真实感。
此外,当我尝试让 AI 模仿澳大利亚口音时,它虽然能够说出“g’day”和“mate”,但很快就回避了更复杂的尝试。无论我如何引导话题,AI 总是巧妙地将对话转回到我最初录制语音样本时讨论的内容,这让人联想到 Anthropic 公司去年的一项实验,其中 Claude 模型对金门大桥表现出了异常的着迷。,
AI 语音技术的进步与挑战
AI 语音技术已经存在多年,但早期的语音助手如 Siri 和 Alexa 在现实性方面表现有限。相比之下,EVI 3 等新一代 AI 语音模型不仅能够用自然语言说话,还能模仿真实人类语音中的微妙变化、语调、特性和节奏。
Hume 公司首席执行官兼首席科学家 Alan Cowen 表示:“人类交流的一个重要部分是强调正确的词语,在正确的时间停顿,使用正确的语调。”EVI 3 的设计正是基于这一理念,能够识别哪些词语需要强调,什么会让人发笑,以及口音和其他语音特征如何与词汇互动。
然而,尽管 EVI 3 在技术上取得了显著进步,许多 AI 专家仍对其“理解”能力持保留态度。这些模型仅仅是为了检测和重建从大量训练数据中提取的模式,而非真正理解语义。,
未来展望
尽管 EVI 3 的语音克隆功能存在一些不足,但其卓越的品质仍令人印象深刻。生成式 AI 技术的快速发展,从 ChatGPT 的公开发布到能够逼真模拟人类语音的 AI 模型,以及 Google 的 Veo 3 等工具,都在不断推动这一领域的进步。
然而,随着 AI 语音技术的不断进步,也带来了新的挑战和风险。例如,上周有人使用 AI 模仿美国国务卿 Marco Rubio 的声音,试图欺骗政府官员。这提醒我们,在享受 AI 技术带来的便利的同时,也需警惕其潜在的滥用风险。
总的来说,EVI 3 的语音克隆功能虽然尚不完美,但其展现出的潜力令人期待。随着技术的不断改进,未来我们或许能够与自己的 AI 版本进行更加真实和深入的对话。