DeepSpeed：用于极大规模深度学习训练和内存效率的系统优化库

DeepSpeed：用于极大规模深度学习训练和内存效率的系统优化库

它解决了什么问题

DeepSpeed 旨在克服通常限制深度学习训练规模和速度的内存与计算约束。它通过使过程更高效、可在多 GPU 和硬件加速器上扩展，从而实现对超大模型——有些模型拥有数千亿参数——的训练。

工作原理

DeepSpeed 采用一套系统层面的创新来优化内存使用和吞吐量。关键技术包括：

ZeRO（Zero Redundancy Optimizer）： 通过在可用 GPU 间划分模型状态来降低内存开销。
3D 并行化： 结合不同类型的并行方式以扩展训练。
Offloading（卸载）： 在 GPU 内存与 CPU/NVMe 之间移动数据，以处理超出 GPU 容量的模型（例如 ZeRO‑Infinity、ZenFlow、SuperOffload）。
Sequence Parallelism（序列并行）： 专门优化长上下文序列的训练（例如 Ulysses Sequence Parallelism）。
专用优化器： 包含通信高效的工具，如 1‑bit Adam。

适用人群

该库面向需要训练超大规模模型（如 LLM）的 AI 研究者和工程师，帮助他们在 NVIDIA、AMD、Intel 以及其他专用 AI 加速器上最大化硬件利用率。

亮点

极大规模： 已用于训练世界领先的模型，如 MT‑530B 和 BLOOM。
广泛硬件支持： 兼容 NVIDIA GPU、AMD GPU、Intel Gaudi/XPU 和华为 Ascend NPU。
与 Hugging Face 深度集成： 与 Transformers 和 Accelerate 库深度集成。
灵活的内存管理： 具备将数据卸载到 CPU 和 NVMe 的高级能力，突破“GPU 内存墙”。

摘要：一个深度学习优化库，通过在分布式硬件上优化内存和计算效率，使得训练万亿参数模型成为可能。

标题： DeepSpeed：用于极大规模深度学习训练和内存效率的系统优化库

Sources

undefineddeepspeedai/DeepSpeed