华为OceanStor A系列存储MLPerf测试再创佳绩,性能全球领先

4次阅读
没有评论

共计 1150 个字符,预计需要花费 3 分钟才能阅读完成。

近日,人工智能工程联盟 MLCommons 发布了 MLPerf Storage v2.0 基准测试套件的最新结果。在此次测试中,济南超级计算技术研究院(JNIST)与华为携手合作,取得了令人瞩目的成绩。华为 OceanStor A 系列存储在多个关键性能指标上均位居全球榜首,包括每个存储系统的性能、每个机架单元的性能以及每个客户端的性能。

华为 OceanStor A 系列存储 MLPerf 测试再创佳绩,性能全球领先

MLPerf Storage 作为衡量 AI 存储性能的行业权威基准,以其严格的标准化和跨厂商的可比性著称。今年的测试吸引了 26 家主流厂商参与。在模型训练方面,MLPerf Storage 基准测试套件涵盖了 3D U-Net 工作负载,重点评估 GPU 利用率和扩展能力。该测试旨在评估存储系统如何支持大规模 AI 集群的计算需求。此次版本新增了检查点模式,成为行业内首个评估大型 AI 模型训练期间检查点性能的标准测试,涵盖了可恢复训练和模型归档等场景,为存储选择提供了宝贵的参考。

在带宽密集型的 3D U-Net 训练测试中,华为 OceanStor A 系列存储系统在三个类别的性能上均位居全球第一,同时保持 GPU 利用率在 90% 以上。一个 8 U 双节点的 OceanStor A800 系统保持了 698 GiB/ s 的稳定带宽,满足了 255 个 H100 GPU 的训练需求。

华为 OceanStor A 系列存储 MLPerf 测试再创佳绩,性能全球领先

同样,一个 2 U 双节点的 OceanStor A600 系统满足了 76 个 H100 GPU 的训练需求,每个机架单元的带宽为 108 GiB/s,每个客户端的带宽为 104 GiB/s。

华为 OceanStor A 系列存储 MLPerf 测试再创佳绩,性能全球领先

在检查点测试中,华为 OceanStor A 系列存储在单个客户端模拟八个 GPU 的场景中性能排名第一。Llama3_8b:40.2 GiB/ s 读取带宽和 20.5 GiB/ s 写入带宽。Llama3_70b:68.8 GiB/ s 读取带宽和 62.4 GiB/ s 写入带宽,比第二名高出 6.7 倍。

华为 OceanStor A 系列存储 MLPerf 测试再创佳绩,性能全球领先

为满足日益增长的计算需求,华为 OceanStor A 系列存储采用了最新的技术创新,确保性能能够跟上客户端和节点的增长。它提供了数百 TB 的稳定集群带宽,增强了大规模训练的数据访问,并端到端加速了训练和推理。OceanStor A 系列存储具备高扩展性,容量可达 EB 级,满足海量数据的存储需求。在数据弹性方面,通过架构创新实现了 99.999% 的高可靠性。此外,OceanStor A 系列存储构建了新的数据范式,拥有 PB 级键值(KV)缓存资源池,在确保推理准确性的同时,将首次令牌时间(TTFT)减少高达 90%,并在长序列场景中将推理吞吐量提高 10 倍以上。OceanStor A 系列存储还提供了内置的检索增强生成(RAG)知识库,支持标量、向量、张量和图的多模式检索,显著降低了使用大型 AI 模型的门槛。

展望未来,华为将继续创新,为高性能计算(HPC)和大型 AI 模型训练及推理量身定制 OceanStor A 系列存储,与客户共同构建智能未来。

正文完
 0
admin-gah
版权声明:本文于2025-08-15转载自Huawei,共计1150字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码