共计 1286 个字符,预计需要花费 4 分钟才能阅读完成。

据最新报道,OpenAI 正在开发一款革命性的生成式音乐工具,能够根据文本和音频提示创作歌曲和器乐作品。这一举措标志着该公司正加速从对话式 AI 向更广泛的创意和消费市场扩展。
根据 The Information 发布的报告,这款新模型不仅能够为视频生成背景音乐,还能为现有的人声添加吉他或钢琴等器乐伴奏。许多业内观察者认为,该项目反映了 OpenAI 在多媒体创作领域的深入探索,旨在将其定位为一款“全能应用”——在一个统一的生态系统中整合文本、语音、视频以及音乐。这一战略紧随 OpenAI 最近推出的文本到视频模型 Sora,以及其持续开发的语音和图像生成工具,表明该公司正有意通过人工智能主导每一个创意媒介。
值得注意的是,OpenAI 一直在与世界著名的音乐学府茱莉亚学院的学生合作,为乐谱进行专业注释。这些注释被用于训练模型,以深入理解节奏、和声和作曲结构——这表明该公司更注重准确性和音乐真实性,而非仅仅追求新颖性。
尽管 OpenAI 过去曾尝试过生成式音乐模型,但这些早期原型在 ChatGPT 发布之前就已存在,且从未向公众发布。然而,当前的项目似乎是更广泛的商业化战略的一部分,因为该公司正面临运营成本上升和实现可持续收入的压力。
虽然 OpenAI 获得了微软数十亿美元的支持,但其在计算基础设施、数据采集和 AI 模型训练方面的支出也在大幅增加——自 GPT-4 和 ChatGPT Plus 订阅服务推出以来,这些成本迅速膨胀。尽管其估值飙升,但分析师表示,该公司尚未实现盈利,其最新进入新行业的尝试可能反映了其多元化收入来源和减少对企业授权协议依赖的战略意图。
一旦推出,这款音乐工具可能会直接与 ChatGPT 或 Sora 集成,使用户在生成歌词和视觉效果的同时,还能创作歌曲、配乐或音乐伴奏。这种集成将使 OpenAI 成为首家提供无缝跨媒体创意工作流程的主要 AI 公司——这一举措可能对内容创作者、电影制作人和数字艺术家产生变革性影响。
然而,OpenAI 进入的是一个已有强大竞争对手的市场。谷歌的 MusicLM 和 Suno 的 AI 平台都允许用户根据文本提示生成音乐,而像 Udio 这样的初创公司正在试验由机器学习驱动的协作作曲工具。分析师表示,OpenAI 的独特之处可能在于其能够在一个 AI 系统下统一多种创意能力——这是其他公司尚未大规模实现的目标。
尽管如此,该公司的快速扩张引发了关于版权和数据伦理的常见担忧。生成式音乐工具严重依赖训练数据集,而这些数据集通常包含受版权保护的材料,这可能会引发音乐人和唱片公司的批评,他们认为这种做法相当于未经许可使用创意作品。OpenAI 与茱莉亚学院学生的合作似乎是为了通过使用经过适当注释和授权的作曲数据来训练模型,从而预先应对此类批评。
目前,OpenAI 尚未公开评论该项目,也未确认发布日期或产品形式。不过,消息人士认为,该工具最早可能在 2026 年发布,作为 OpenAI 将语言、视觉和声音整合到一个统一 AI 接口的更大计划的一部分。
如果成功,这款新工具可能会重新定义音乐的创作、制作和消费方式,并可能巩固 OpenAI 作为领先 AI 公司的地位,同时成为未来数字创意的基础平台。