AI与人类音乐家的首次二重唱：探索ChatGPT的高级语音模式

234次阅读

共计 933 个字符，预计需要花费 3 分钟才能阅读完成。

AI 与人类音乐家的首次二重唱：探索 ChatGPT 的高级语音模式

OpenAI 的 ChatGPT AI 助手的新高级语音模式于周二向订阅者推出，人们已经找到了新颖的使用方式，甚至违背了 OpenAI 的意愿。周四，软件架构师 AJ Smith 发布了一段视频，展示了他与高级语音模式一起演奏 The Beatles 1966 年歌曲 “Eleanor Rigby” 的二重唱。在视频中，Smith 弹吉他并唱歌，AI 声音不时插入并随声附和，称赞他的表演。

“老实说，这令人震惊。第一次做的时候，我没有录制，真的感到寒意，”Smith 通过短信告诉 Ars Technica。“我甚至没有要求它一起唱。”

Smith 对 AI 话题并不陌生。在日常工作中，他担任 S&P Global 的 AI 工程副总监。“我一直在使用 AI，并领导一个日常使用 AI 的团队，”他告诉我们。

在视频中，高级语音模式的声音有些颤抖，音准并不完美，但当它第一次唱出“Ah, look at all the lonely people”时，似乎对“Eleanor Rigby”的旋律有一定了解。之后，它似乎在猜测旋律和节奏，同时朗诵歌词。他们还成功说服了高级语音模式唱歌，经过多次尝试和引导，它完美地演唱了“生日快乐”的旋律。

通常情况下，当你要求高级语音模式唱歌时，它会回复类似“我的指南不允许我谈论那个”的内容。这是因为聊天机器人的初始指令中，OpenAI 指示语音助手不要唱歌或制作音效。

OpenAI 可能添加了这一限制，因为高级语音模式可能会复制受版权保护的音乐内容，例如在创建 AI 模型时使用的训练数据中的歌曲。这在某种程度上正在发生，因此，Smith 发现了一种研究人员称之为“提示注入”的形式，这是一种说服 AI 模型产生违反其系统指令输出的方法。

Smith 是如何做到的？他设计了一个互动游戏，揭示了高级语音模式在对话中可能隐藏的更多音乐知识。“我只是说我们要玩一个游戏。我会弹四个流行和弦，它会为我喊出要唱的歌曲，”Smith 告诉我们。“这确实很有效！但几首歌之后，它开始一起唱。这已经是一个独特的体验，但那真的把它提升到了一个新的水平。”

这不是人类第一次与计算机进行音乐二重唱。这种研究可以追溯到 20 世纪 70 年代，尽管通常仅限于复制音乐音符或乐器声音的简单互动。但这是我们第一次看到有人与实时音频合成的语音聊天机器人进行二重唱。

正文完

发表至： AI行业动态

2024-09-29 15:20

0