探索Nvidia Fugatto模型:创造前所未有的声音

94次阅读
没有评论

共计 1487 个字符,预计需要花费 4 分钟才能阅读完成。

你有没有想过,如果萨克斯风发出尖叫声会是什么样子?Nvidia 的 Fugatto 模型或许能给你一个答案。

 探索 Nvidia Fugatto 模型:创造前所未有的声音

音频的世界真是奇妙,充满了各种可能性。想象一下,一个愤怒的大提琴声,或者从未存在过的声音,这些都能通过 AI 技术实现。Nvidia 最近推出的 Fugatto 模型,似乎在这方面又迈出了一大步。它不仅能从文本提示中生成语音或音乐,还能“转换任何音乐、人声和声音的混合”,创造出前所未有的声音。

虽然 Fugatto 还没有公开测试,但已经有一个充满样本的网站展示了它的能力。你可以听到萨克斯风的咆哮声,水下人声,甚至救护车警报器以某种合唱形式歌唱。虽然结果有好有坏,但这些广泛的功能确实让人对 Fugatto 的潜力充满期待,Nvidia 甚至称其为“声音的瑞士军刀”。

数据的质量在这里显得尤为重要。Nvidia 的研究人员在一篇论文中详细解释了制作一个能够“揭示音频与语言之间有意义关系”的训练数据集的难度。他们使用 LLM 生成了一个 Python 脚本,创建了大量基于模板和自由形式的指令,描述不同的音频“角色”。然后,他们生成了一组绝对和相对指令,这些指令可以应用于这些角色。

为了训练 Fugatto,研究人员利用现有的音频理解模型,为训练片段创建“合成字幕”,生成可以自动量化性别、情感和语音质量等特征的自然语言描述。他们还使用音频处理工具在更声学层面上描述和量化训练片段。

通过这一过程,研究人员最终得到了一个包含 2000 万个单独样本的密集注释数据集,代表至少 50,000 小时的音频。然后,他们使用一组 32 个 Nvidia 张量核心创建了一个具有 25 亿参数的模型,该模型在一系列音频质量测试中开始显示出可靠的分数。

Fugatto 的“ComposableART”系统也值得一提。这个系统可以使用“条件引导”来“独立控制和生成(未见过的)指令和任务的组合”,并生成“高度可定制的音频输出,超出训练分布”。这意味着它可以结合训练集中的不同特征,创造出从未听过的全新声音。

虽然我不敢说自己完全理解论文中描述的所有复杂数学,但最终结果确实令人印象深刻。例如,Fugatto 可以创造出“听起来像笑婴儿的小提琴或在前方轻柔雨中演奏的班卓琴”或“在金属痛苦中尖叫的工厂机械”。

Fugatto 最有趣的部分可能是它如何将每个音频特征视为可调的连续体,而不是二元的。例如,对于结合原声吉他和流水声的例子,当吉他或水在 Fugatto 的插值混合中权重更大时,结果会非常不同。Nvidia 还提到了调整法语口音的轻重或改变语音片段中“悲伤程度”的例子。

除了调整和组合不同的音频特征外,Fugatto 还可以执行我们在之前的模型中看到的音频任务,如改变口语文本中的情感或隔离音乐片段中的声轨。它还可以检测 MIDI 音乐片段中的单个音符,并用各种人声表演替换它们,或者检测音乐片段的节拍,并以匹配节奏的方式添加从鼓声到咆哮的狗再到滴答作响的钟声的效果。

尽管研究人员将 Fugatto 描述为“走向未来,其中无监督多任务学习从数据和模型规模中涌现”的第一步,Nvidia 已经在讨论从歌曲原型设计到动态变化的视频游戏配乐再到国际广告定位的用例。但 Nvidia 也强调,像 Fugatto 这样的模型最好被视为音频艺术家的新工具,而不是取代他们的创造才能。

“音乐的历史也是技术发展的历史,”Nvidia Inception 参与者、制作人 / 作曲家 Ido Zmishlany 在 Nvidia 的博客文章中说道。“电吉他给了世界摇滚乐。当采样器出现时,嘻哈音乐诞生了。随着 AI 的发展,我们正在书写音乐的下一章。我们有了新的乐器,制作音乐的新工具——这非常令人兴奋。”

正文完
 0
admin-gah
版权声明:本文于2024-11-27转载自Ars Technica,共计1487字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码