共计 1528 个字符,预计需要花费 4 分钟才能阅读完成。
Meta 近日发布了两款新的 Llama 4 模型——小型模型 Scout 和中型模型 Maverick。Meta 声称 Maverick 在多项基准测试中击败了 GPT-4o 和 Gemini 2.0 Flash,并在 AI 基准测试网站 LMArena 上迅速攀升至第二名。然而,这一成就的背后却隐藏着争议。
根据 Meta 的新闻稿,Maverick 的 ELO 得分高达 1417,超越了 OpenAI 的 GPT-4o,仅次于 Gemini 2.5 Pro。ELO 得分越高,意味着模型在与竞争对手正面交锋时的胜率更高。这一成绩似乎让 Meta 的开源模型 Llama 4 成为 OpenAI、Anthropic 和 Google 等公司闭源模型的有力竞争者。
然而,AI 研究人员在深入研究 Meta 的文档时发现了异常。Meta 在细小的文字中承认,在 LMArena 上测试的 Maverick 版本与公众可用的版本不同。该公司在 LMArena 上部署了一个“实验性聊天版本”的 Maverick,该版本专门“为对话性进行了优化”。
LMArena 在模型发布两天后在 X 上发帖表示:“Meta 对我们政策的解释与我们对模型提供商的期望不符。Meta 应该更清楚地说明‘Llama-4-Maverick-03-26-Experimental’是一个为优化人类偏好而定制的模型。”LMArena 随后更新了其排行榜政策,以强化对公平、可重复评估的承诺,避免未来再次出现类似混淆。
Meta 的发言人未能在发布前及时回应 LMArena 的声明。尽管 Meta 的操作并未明确违反 LMArena 的规则,但该网站已表达了对系统作弊的担忧,并采取了措施“防止过拟合和基准泄漏”。当公司可以提交专门调优的模型版本进行测试,而向公众发布不同版本时,像 LMArena 这样的基准排名作为现实世界性能指标的参考价值就会降低。
独立 AI 研究员 Simon Willison 告诉《The Verge》:“这是最受尊敬的通用基准测试,因为其他基准测试都很糟糕。当 Llama 4 发布时,它在竞技场中排名第二,仅次于 Gemini 2.5 Pro——这让我印象深刻,我后悔没有仔细阅读小字。”
在 Meta 发布 Maverick 和 Scout 后不久,AI 社区开始讨论一个传言,称 Meta 还训练了其 Llama 4 模型,使其在基准测试中表现更好,同时隐藏了其真正的局限性。Meta 生成式 AI 副总裁 Ahmad Al-Dahle 在 X 上回应了这些指控:“我们也听到了关于我们在测试集上训练的传言——这根本不是真的,我们也绝不会这样做。我们最好的理解是,人们看到的变量质量是由于需要稳定实现。”
一些人还注意到,Llama 4 的发布时间非常奇怪。周六通常不是发布重大 AI 新闻的时间。在 Threads 上有人问为什么 Llama 4 在周末发布时,Meta CEO Mark Zuckerberg 回复道:“因为那时它准备好了。”
Willison 总结道:“总的来说,这是一个非常混乱的发布。我们在那里得到的模型得分对我来说完全没用。我甚至无法使用他们获得高分的模型。”
Meta 发布 Llama 4 的道路并不顺利。根据《The Information》的最新报告,由于模型未能达到内部预期,该公司多次推迟了发布。这些预期尤其高,因为中国的开源 AI 初创公司 DeepSeek 发布了一款开源权重模型,引发了大量关注。
最终,在 LMArena 中使用优化模型使开发者陷入困境。当为他们的应用程序选择像 Llama 4 这样的模型时,他们自然会参考基准测试。但正如 Maverick 的情况所示,这些基准测试可能反映的能力实际上并不存在于公众可以访问的模型中。
随着 AI 开发的加速,这一事件展示了基准测试如何成为战场。它也展示了 Meta 如何渴望被视为 AI 领域的领导者,即使这意味着在系统中作弊。