共计 1069 个字符,预计需要花费 3 分钟才能阅读完成。
人工智能(AI)性能的提升不仅依赖于先进的芯片技术,更在于芯片与网络的无缝结合。最新研究表明,随着芯片数量的增加,芯片间的网络连接变得愈发重要。
MLCommons 的最新 AI 训练测试结果显示,AI 系统的训练速度不仅依赖于 Nvidia、AMD 和 Intel 等公司的最快芯片,还越来越依赖于这些芯片之间的连接方式以及网络配置。MLCommons 是 AI 系统的基准测试机构,其在最新发布的 MLPerf 训练报告中指出,随着 AI 系统规模的扩大,芯片之间的网络连接和通信算法对性能的影响日益显著。
在最新的 5.0 版本测试中,参与测试的 GPU 芯片数量从最初的 32 个飙升至 8,192 个,显示出 AI 系统规模的急剧扩展。MLCommons 负责人 David Kanter 表示,随着 AI 系统扩展到数千甚至数百万个 GPU 芯片,网络配置和通信算法的重要性已经超过了芯片本身的性能。
AI 训练的核心在于并行处理大量的数学运算,如线性代数操作。当这些操作在多个芯片上并行执行时,每个芯片处理数据的不同部分,网络的高效通信成为关键。Kanter 指出,数据并行性是最常用的方法之一,即在不同节点上运行相同的 AI 模型,并通过网络在所有节点之间通信结果。
在这一轮测试中,Nvidia 提交的 8,192 个芯片系统在所有基准测试中表现最为出色,使用了其最新的 H100 GPU 芯片和 2,048 个 Intel CPU 芯片。此外,Nvidia 的 Grace-Blackwell 200 系统首次亮相,由 IBM 和 AI 云托管巨头 CoreWeave 联合提交,该系统包含 2,496 个 Blackwell GPU 和 1,248 个 Grace CPU,展示了其在超大规模 AI 训练中的强大能力。
测试结果还显示,网络技术的选择和配置对系统性能有显著影响。不同的网络技术(如以太网)和协议(如 TCP-IP)在有效吞吐量方面表现出不同的特性,直接影响到系统的整体利用率。CoreWeave 的 Chetan Kapoor 表示,网络利用率的提升是行业取得进展的关键因素之一,Nvidia 通过其 NVLink 通信技术和集体通信库 NCCL 实现了高达 90% 的扩展效率。
尽管难以精确量化网络在系统性能中的作用,但测试结果表明,随着芯片数量的增加,网络连接的优化显著减少了训练时间。Kanter 展示的图表显示,自 0.5 版本测试以来的性能提升速度超过了单个芯片的改进,这得益于硅架构、算法和网络效率的综合优化。
“我们正在超越摩尔定律,”Kanter 表示,AI 系统的加速发展不仅依赖于芯片的进步,还依赖于整个系统的优化,特别是在生成式 AI 等前沿领域,这种趋势尤为明显。