共计 1318 个字符,预计需要花费 4 分钟才能阅读完成。
旧金山,2025 年 11 月 12 日(环球新闻社)—— MLCommons® 今日发布了 MLPerf® Training v5.1 基准测试套件的最新结果,展示了 AI 生态系统的快速发展和性能的显著提升。该基准测试套件通过全面评估模型、软件和硬件,为机器学习(ML)应用提供了行业标准,推动了创新、性能和能效的全面提升。
MLPerf Training v5.1 版本在系统多样性方面创下新纪录,共收到 65 个独特系统的提交,涵盖了 12 种硬件加速器和多种软件框架。其中,近一半的提交为多节点系统,较一年前的 4.1 版本增加了 86%。这些系统采用了多种网络架构,并结合了定制解决方案,进一步提升了生成式 AI 场景的性能。值得注意的是,本轮测试在生成式 AI 场景中的两项基准测试中,性能提升速度已超越摩尔定律的预测。
“硬件系统的多样性使客户能够在 MLPerf 基准测试中比较不同系统,做出更明智的购买决策,”MLPerf Training 工作组联合主席 Shriya Rishab 表示。“硬件提供商通过 MLPerf 展示了其产品在多节点环境中的扩展效率,本轮测试的性能改进表明,AI 生态系统中的创新正在产生深远影响。”
MLPerf Training v5.1 吸引了来自 20 个组织的参与,包括 AMD、ASUSTeK、Cisco、Datacrunch、Dell、Giga Computing、HPE、Krai、Lambda、Lenovo、MangoBoost、MiTAC、Nebius、NVIDIA、Oracle、Quanta Cloud Technology、Supermicro、佛罗里达大学和 Wiwynn。其中,Datacrunch、佛罗里达大学和 Wiwynn 首次提交了 MLPerf Training 结果。
本轮测试还显示,生成式 AI(genAI)任务基准测试的提交量显著增加。例如,Llama 2 70B LoRA 基准测试的提交量增加了 24%,而新的 Llama 3.1 8B 基准测试的提交量较其替代的 BERT 测试增加了 15%。“生成式 AI 基准测试的提交量和性能改进表明,社区正高度关注这一领域,”MLCommons 的 MLPerf 负责人 David Kanter 表示。“我们很自豪能够提供关键洞察,帮助利益相关者做出更明智的决策。”
为跟上 AI 领域的快速发展,MLPerf Training v5.1 更新了两项基准测试。Llama 3.1 8B 取代了 BERT,作为预训练大型语言模型(LLM)的基准测试。该测试因其较少的可训练参数,能够在单个节点上运行,适用于更广泛的系统,同时仍能有效反映较大集群的性能。
此外,Flux.1 取代了 Stable Diffusion v2,成为基于 Transformer 的文本到图像基准测试。Flux.1 结合了 119 亿参数的 Transformer 模型,反映了生成式 AI 在文本到图像任务中的最新技术水平。
“AI 领域不断变化,新场景和能力的出现推动我们持续更新基准测试套件,”MLPerf Training 工作组联合主席 Paul Baumstarck 表示。“我们将确保 MLPerf Training 始终衡量对社区至关重要的内容。”
如需了解更多信息,请访问 MLPerf Training v5.1 完整结果页面 。