optimum: さまざまなAIアクセラレータにわたるトレーニングと推論の効率を最大化するためのハードウェア最適化ツールキット

optimum: さまざまなAIアクセラレータにわたるトレーニングと推論の効率を最大化するためのハードウェア最適化ツールキット

何を解決するか

Optimumは、特定のハードウェアアクセラレータ上でAIモデルをトレーニングおよび実行するプロセスを簡素化し、ユーザーが複雑なハードウェア固有の最適化を手動で扱う必要なく、最大限の効率を達成できるようにします。Transformers、Diffusers、TIMM、およびSentence-Transformersのようなライブラリの機能を拡張します。

仕組み

Optimumは、さまざまなエコシステムにわたってモデルをエクスポート、量子化、および実行するためのツールを提供する最適化レイヤーとして機能します。以下を含む、異なるハードウェアバックエンド向けの専門的なラッパーと統合を提供します:

  • 推論エンジン: ONNX Runtime、OpenVINO、ExecuTorch、NVIDIA TensorRT-LLM、およびAWS Inferentiaのサポート。
  • トレーニングラッパー: Intel Gaudi (HPU) や AWS Trainium などのハードウェア上でのトレーニングを加速させるために、Transformers Trainerの周囲に特別に設計されたラッパー。
  • 量子化: APIまたはコマンドラインを介したPyTorchの量子化のためのQuantoのようなツール。

対象者

ターゲットとなるハードウェア(エッジデバイス、GPU、NPU、および専門的なAIアクセラレータ)にAIモデルを本番環境へデプロイする必要がある開発者やMLエンジニア、およびトレーニングパイプラインを加速させたいと考えている人々。

ハイライト

  • 幅広いハードウェアサポート: NVIDIA、Intel (OpenVINO, Gaudi)、AMD、AWS (Trainium, Inferentia)、およびFuriosaAIと統合。
  • シームレスなエクスポート: オンデバイス推論のために、ONNXやExecuTorchのような形式へのモデルの簡単なエクスポートを可能にします。
  • 統一されたインターフェース: Python APIまたはコマンドラインインターフェースを使用して、Hugging Faceエコシステムからモデルを最適化および実行する一貫した方法を提供します。
  • 加速されたトレーニング: モデルのトレーニングおよびファインチューニングのための高性能ハードウェアの使用を簡素化します。

Sources