微软发布全新AI语音与基础模型，开启智能新纪元

102次阅读

共计 709 个字符，预计需要花费 2 分钟才能阅读完成。

微软 AI（MAI）近日重磅推出两款全新模型，标志着其在构建赋能全球个人与组织的 AI 使命上迈出了重要一步。微软表示，其目标是打造“面向所有人的 AI”——一种负责任、可靠且量身定制的技术，成为日常生活中的可信赖伙伴。

此次发布的首个模型是 MAI-Voice-1，这是微软最新推出的语音生成模型，旨在提供高保真且富有表现力的音频。该模型已经为 Copilot Daily 和 Podcasts 提供支持，用户还可以通过 Copilot Labs 进行实验，尝试讲故事和引导冥想等演示。

MAI-Voice- 1 在单个 GPU 上仅需一秒即可生成一分钟的音频，使其成为目前最高效的语音系统之一。微软将语音描述为 AI 伴侣的“未来界面”，并指出该模型能够处理单人和多人场景。

第二个发布的模型是 MAI-1-preview，这是该公司首个端到端的基础模型，目前已在 LMArena 上公开测试。LMArena 是一个流行的模型评估社区平台。该模型使用约 15,000 个 NVIDIA H100 GPU 构建，是一种专家混合模型，经过预训练和后训练，能够处理指令跟随和对话任务。微软表示，该模型将很快为 Copilot 内的部分基于文本的功能提供支持，早期反馈将有助于优化其性能。

开发者和测试人员还可以申请 MAI-1-preview 的 API 访问权限，微软称这是构建持续改进飞轮的重要一步。

MAI 指出，这些模型代表了更大路线图中的第一步。该公司计划协调一系列专为不同用例和用户意图设计的专用 AI 模型，结合其内部工作与合作伙伴和开源社区的贡献。

“语音只是一个开始，”团队表示。“他们相信，协调专用模型将释放巨大的价值，并对未来的工作感到兴奋，因为他们旨在将领先的 AI 交到全球人民手中。”

正文完