optimum: 一个用于在各种 AI 加速器上最大化训练和推理效率的硬件优化工具包

optimum: 一个用于在各种 AI 加速器上最大化训练和推理效率的硬件优化工具包

它解决了什么问题

Optimum 简化了在特定硬件加速器上训练和运行 AI 模型的流程，确保它们能够实现最大效率，而无需用户手动处理复杂的硬件特定优化。它扩展了 Transformers、Diffusers、TIMM 和 Sentence-Transformers 等库的功能。

它是如何工作的

Optimum 作为一个优化层，提供工具来跨各种生态系统导出、量化和运行模型。它为不同的硬件后端提供专门的封装器和集成，包括：

推理引擎： 支持 ONNX Runtime、OpenVINO、ExecuTorch、NVIDIA TensorRT-LLM 和 AWS Inferentia。
训练封装器： 在 Transformers Trainer 周围提供专门的封装器，以便在 Intel Gaudi (HPU) 和 AWS Trainium 等硬件上实现加速训练。
量化： 通过 API 或命令行使用 Quanto 等工具进行 PyTorch 量化。

它是为谁准备的

需要将 AI 模型部署到目标硬件（边缘设备、GPU、NPU 和专用 AI 加速器）进行生产环境，以及希望加速其训练流水线的人员，包括开发者和机器学习工程师。

亮点

广泛的硬件支持： 集成了 NVIDIA、Intel (OpenVINO, Gaudi)、AMD、AWS (Trainium, Inferentia) 和 FuriosaAI。
无缝导出： 支持将模型轻松导出为 ONNX 和 ExecuTorch 等格式，以便进行设备端推理。
统一的接口： 提供了一种一致的方式，通过 Python API 或命令行界面来优化和运行来自 Hugging Face 生态系统的模型。
加速训练： 简化了使用高性能硬件进行模型训练和微调的过程。

Sources

undefinedhuggingface/optimum