华为OceanStor A系列存储MLPerf测试再创佳绩，性能全球领先

100次阅读

共计 1150 个字符，预计需要花费 3 分钟才能阅读完成。

近日，人工智能工程联盟 MLCommons 发布了 MLPerf Storage v2.0 基准测试套件的最新结果。在此次测试中，济南超级计算技术研究院（JNIST）与华为携手合作，取得了令人瞩目的成绩。华为 OceanStor A 系列存储在多个关键性能指标上均位居全球榜首，包括每个存储系统的性能、每个机架单元的性能以及每个客户端的性能。

华为 OceanStor A 系列存储 MLPerf 测试再创佳绩，性能全球领先

MLPerf Storage 作为衡量 AI 存储性能的行业权威基准，以其严格的标准化和跨厂商的可比性著称。今年的测试吸引了 26 家主流厂商参与。在模型训练方面，MLPerf Storage 基准测试套件涵盖了 3D U-Net 工作负载，重点评估 GPU 利用率和扩展能力。该测试旨在评估存储系统如何支持大规模 AI 集群的计算需求。此次版本新增了检查点模式，成为行业内首个评估大型 AI 模型训练期间检查点性能的标准测试，涵盖了可恢复训练和模型归档等场景，为存储选择提供了宝贵的参考。

在带宽密集型的 3D U-Net 训练测试中，华为 OceanStor A 系列存储系统在三个类别的性能上均位居全球第一，同时保持 GPU 利用率在 90% 以上。一个 8 U 双节点的 OceanStor A800 系统保持了 698 GiB/ s 的稳定带宽，满足了 255 个 H100 GPU 的训练需求。

华为 OceanStor A 系列存储 MLPerf 测试再创佳绩，性能全球领先

同样，一个 2 U 双节点的 OceanStor A600 系统满足了 76 个 H100 GPU 的训练需求，每个机架单元的带宽为 108 GiB/s，每个客户端的带宽为 104 GiB/s。

华为 OceanStor A 系列存储 MLPerf 测试再创佳绩，性能全球领先

在检查点测试中，华为 OceanStor A 系列存储在单个客户端模拟八个 GPU 的场景中性能排名第一。Llama3_8b：40.2 GiB/ s 读取带宽和 20.5 GiB/ s 写入带宽。Llama3_70b：68.8 GiB/ s 读取带宽和 62.4 GiB/ s 写入带宽，比第二名高出 6.7 倍。

华为 OceanStor A 系列存储 MLPerf 测试再创佳绩，性能全球领先

为满足日益增长的计算需求，华为 OceanStor A 系列存储采用了最新的技术创新，确保性能能够跟上客户端和节点的增长。它提供了数百 TB 的稳定集群带宽，增强了大规模训练的数据访问，并端到端加速了训练和推理。OceanStor A 系列存储具备高扩展性，容量可达 EB 级，满足海量数据的存储需求。在数据弹性方面，通过架构创新实现了 99.999% 的高可靠性。此外，OceanStor A 系列存储构建了新的数据范式，拥有 PB 级键值（KV）缓存资源池，在确保推理准确性的同时，将首次令牌时间（TTFT）减少高达 90%，并在长序列场景中将推理吞吐量提高 10 倍以上。OceanStor A 系列存储还提供了内置的检索增强生成（RAG）知识库，支持标量、向量、张量和图的多模式检索，显著降低了使用大型 AI 模型的门槛。

展望未来，华为将继续创新，为高性能计算（HPC）和大型 AI 模型训练及推理量身定制 OceanStor A 系列存储，与客户共同构建智能未来。

正文完