微软MAI-Image-1 AI模型震撼发布,挑战谷歌与OpenAI

2次阅读
没有评论

共计 895 个字符,预计需要花费 3 分钟才能阅读完成。

微软近日宣布推出其首个完全自主研发的图像生成模型 MAI-Image-1,该模型在 LMArena 平台上排名第 9。LMArena 是一个用户通过投票选出最佳回答的平台,用户可以向两个匿名聊天机器人提出问题,最终决出胜者。

微软表示,MAI-Image-1 将很快在 Copilot 和 Bing Image Creator 上提供,并可在 LMArena 上进行测试。微软团队在开发过程中,特别注重避免重复或通用风格化的输出。微软强调,他们优先考虑了严格的数据选择和细致入微的评估,重点关注与现实世界创意用例密切相关的任务,并已从创意行业的专业人士那里获得了反馈。

微软 MAI-Image-1 AI 模型震撼发布,挑战谷歌与 OpenAI

据悉,MAI-Image-1 在生成风景和逼真图像方面表现出色,能够准确捕捉光线、阴影和反射的细节。微软表示,与许多更大、更慢的模型相比,这一点尤为突出。

在 LMArena 的文本到图像排行榜上,微软的模型获得 1096 分,而谷歌的 Gemini-2.5-Flash(Nano-Banana)以 1154 分排名第 2,OpenAI 的模型以 1123 分排名第 7。然而,领先的是中国科技巨头 Hunyuan 开发的 AI 模型 Hunyuan-image-3.0。

除了 MAI-Image-1,微软还开发了其他内部模型,如 MAI-Voice-1,这是一种自然语音生成模型,以及 Phi 系列语言模型,这些小型语言模型在推理任务中提供了高效的性能。

此外,微软还支持 OpenAI 开发其自有模型,提供了资金支持和基础设施。

目前,AI 图像生成领域正处于高度活跃的时期。OpenAI 的模型因其对吉卜力工作室艺术风格的惊人模仿而迅速走红,随后谷歌的“Nano Banana”以其强大的 AI 编辑能力设定了新的基准。

使用 LMArena,AIM 比较了微软的 MA1-Image-1、谷歌的 Gemini-2.5-Flash(nano-banana)和 OpenAI 的 GPT-image-1,测试内容为展示傍晚时分咖啡馆窗边的两个人。测试重点在于每个模型如何处理混合光线、反射和阴影的真实感。用户可以在 LMArena 上提供类似的提示来测试所有这些模型。

_(左:Gemini,中:GPT,右:MAI-Image-1)_

正文完
 0
admin-gah
版权声明:本文于2025-10-15转载自Analytics India Magazine,共计895字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码