微软MAI-Image-1 AI模型震撼发布，挑战谷歌与OpenAI

68次阅读

共计 895 个字符，预计需要花费 3 分钟才能阅读完成。

微软近日宣布推出其首个完全自主研发的图像生成模型 MAI-Image-1，该模型在 LMArena 平台上排名第 9。LMArena 是一个用户通过投票选出最佳回答的平台，用户可以向两个匿名聊天机器人提出问题，最终决出胜者。

微软表示，MAI-Image-1 将很快在 Copilot 和 Bing Image Creator 上提供，并可在 LMArena 上进行测试。微软团队在开发过程中，特别注重避免重复或通用风格化的输出。微软强调，他们优先考虑了严格的数据选择和细致入微的评估，重点关注与现实世界创意用例密切相关的任务，并已从创意行业的专业人士那里获得了反馈。

微软 MAI-Image-1 AI 模型震撼发布，挑战谷歌与 OpenAI

据悉，MAI-Image-1 在生成风景和逼真图像方面表现出色，能够准确捕捉光线、阴影和反射的细节。微软表示，与许多更大、更慢的模型相比，这一点尤为突出。

在 LMArena 的文本到图像排行榜上，微软的模型获得 1096 分，而谷歌的 Gemini-2.5-Flash（Nano-Banana）以 1154 分排名第 2，OpenAI 的模型以 1123 分排名第 7。然而，领先的是中国科技巨头 Hunyuan 开发的 AI 模型 Hunyuan-image-3.0。

除了 MAI-Image-1，微软还开发了其他内部模型，如 MAI-Voice-1，这是一种自然语音生成模型，以及 Phi 系列语言模型，这些小型语言模型在推理任务中提供了高效的性能。

此外，微软还支持 OpenAI 开发其自有模型，提供了资金支持和基础设施。

目前，AI 图像生成领域正处于高度活跃的时期。OpenAI 的模型因其对吉卜力工作室艺术风格的惊人模仿而迅速走红，随后谷歌的“Nano Banana”以其强大的 AI 编辑能力设定了新的基准。

使用 LMArena，AIM 比较了微软的 MA1-Image-1、谷歌的 Gemini-2.5-Flash（nano-banana）和 OpenAI 的 GPT-image-1，测试内容为展示傍晚时分咖啡馆窗边的两个人。测试重点在于每个模型如何处理混合光线、反射和阴影的真实感。用户可以在 LMArena 上提供类似的提示来测试所有这些模型。

_(左：Gemini，中：GPT，右：MAI-Image-1)_

正文完