optimum: 一个用于在各种 AI 加速器上最大化训练和推理效率的硬件优化工具包

optimum: 一个用于在各种 AI 加速器上最大化训练和推理效率的硬件优化工具包

它解决了什么问题

Optimum 简化了在特定硬件加速器上训练和运行 AI 模型的流程,确保它们能够实现最大效率,而无需用户手动处理复杂的硬件特定优化。它扩展了 Transformers、Diffusers、TIMM 和 Sentence-Transformers 等库的功能。

它是如何工作的

Optimum 作为一个优化层,提供工具来跨各种生态系统导出、量化和运行模型。它为不同的硬件后端提供专门的封装器和集成,包括:

  • 推理引擎: 支持 ONNX Runtime、OpenVINO、ExecuTorch、NVIDIA TensorRT-LLM 和 AWS Inferentia。
  • 训练封装器: 在 Transformers Trainer 周围提供专门的封装器,以便在 Intel Gaudi (HPU) 和 AWS Trainium 等硬件上实现加速训练。
  • 量化: 通过 API 或命令行使用 Quanto 等工具进行 PyTorch 量化。

它是为谁准备的

需要将 AI 模型部署到目标硬件(边缘设备、GPU、NPU 和专用 AI 加速器)进行生产环境,以及希望加速其训练流水线的人员,包括开发者和机器学习工程师。

亮点

  • 广泛的硬件支持: 集成了 NVIDIA、Intel (OpenVINO, Gaudi)、AMD、AWS (Trainium, Inferentia) 和 FuriosaAI。
  • 无缝导出: 支持将模型轻松导出为 ONNX 和 ExecuTorch 等格式,以便进行设备端推理。
  • 统一的接口: 提供了一种一致的方式,通过 Python API 或命令行界面来优化和运行来自 Hugging Face 生态系统的模型。
  • 加速训练: 简化了使用高性能硬件进行模型训练和微调的过程。

Sources