DataStates-LLM：如何高效保存万亿级大模型检查点？

9次阅读

共计 1665 个字符，预计需要花费 5 分钟才能阅读完成。

面对万亿级参数规模的现代大型语言模型（LLM），如何在数千个 GPU 的集群上高效保存模型检查点，已成为制约训练效率和系统韧性的关键挑战。来自阿贡国家实验室和罗切斯特理工学院的研究团队联合提出了 DataStates-LLM，这是一个突破性的检查点保存系统，旨在解决传统方法在处理大规模 LLM 训练时的性能瓶颈。

这一创新系统不再将模型状态视为简单的二进制文件，而是智能地管理数据的“三维异质性”，即数据的位置、结构和类型差异。通过这种方法，DataStates-LLM 显著提升了检查点保存的吞吐量，为超大规模 Transformer 模型的训练提供了更高效、更可靠的解决方案。

随着大型语言模型的参数规模普遍突破 7000 亿甚至万亿级别，训练过程需要在庞大的 GPU 集群上采用复杂的并行策略。定期保存模型状态，即检查点，对于确保系统韧性至关重要。它不仅能实现硬件故障时的快速恢复，减少因故障导致的训练中断和资源浪费，也支持研究人员对训练过程进行更深入的调试和分析。

然而，传统的检查点保存方法难以有效处理 LLM 数据的“三维异质性”。这种异质性体现在多个维度：数据存储的位置（如 GPU 显存与主机内存）、成千上万个碎片化的数据对象、以及不同数据类型（如 FP16, BF16）各自复杂的序列化需求。这些因素共同导致了严重的性能瓶颈，拖慢了整体训练速度。,

DataStates-LLM 的关键创新在于其独特的架构设计。研究团队通过将状态抽象与数据移动解耦，并引入“状态提供者”来协调整个检查点保存流程，实现了性能的飞跃。

该系统巧妙地利用了训练期间模型参数的不变性，执行“惰性”且非阻塞的异步快照。这种方法有效避免了传统方案中的三大性能杀手：,

阻塞式数据传输 ：避免了 GPU 到主机内存拷贝造成的训练停顿。
低效序列化 ：针对数据结构特性进行优化，而非一刀切的处理。
存储 I / O 争用 ：通过合并碎片化的数据分片，并将元数据序列化与批量张量 I / O 操作重叠，大幅减少了存储系统的压力。

研究团队在基于 256 个 A100-40GB GPU、参数规模达 700 亿的模型上进行了严格的实验验证。结果显示，与当前最先进的检查点解决方案相比，DataStates-LLM 的保存吞吐量最高提升了 4 倍。

这一性能提升直接转化为端到端训练时间的减少，最高可达 2.2%。考虑到超大规模 LLM 训练动辄数周甚至数月，以及硬件故障的频繁发生（例如，Llama 3 405B 模型平均每 2.8 小时就会遭遇一次故障），每一分效率的提升都意味着巨大的成本节约和研发周期缩短。,

DataStates-LLM 的研究为管理 LLM 的大规模分布式状态建立了新的范式。除了提升系统韧性，该系统还特别支持需要频繁保存检查点的关键应用场景。

例如，在基于人类反馈的强化学习（RLHF）和迁移学习中，模型状态需要被反复保存和加载。DataStates-LLM 的高效性使得这些计算密集型任务变得更为可行。实验采用了包括 BLOOM-3B、Llama 7B/13B/33B/70B 在内的五种生产级 LLM 配置，结合了张量、流水线和数据并行策略，并在 Lustre 并行文件系统上验证了其稳定性。,

在大规模 LLM 训练中，硬件故障与软件错误日益频繁（有报告显示，某些大型训练系统的故障率高达 43.4%）。能够快速、高效地保存模型状态，对于维持研究生产力和训练流程的稳健性至关重要。DataStates-LLM 的出现，有望加速 LLM 的开发周期，并支持研究者探索更大参数规模的模型。

当然，研究团队也指出了当前方案的改进空间，例如在高频保存场景下的网络与存储成本优化。他们计划在未来工作中通过差分检查点、数据压缩等技术进一步扩展系统能力，并探索支持跨更深层次内存层级（如 NVMe SSD）卸载模型状态，通过分片聚合来缓解元数据瓶颈，持续推动大型语言模型训练向更高效、更可扩展的未来迈进。

正文完