zml: AIワークロードをプロプライエタリなハードウェアから切り離すプロダクション推論スタック

zml: AIワークロードをプロプライエタリなハードウェアから切り離すプロダクション推論スタック

解決する課題

ZMLは、AIワークロードをプロプライエタリなハードウェアから切り離すために設計されたプロダクション推論スタックです。これにより、開発者は各プラットフォームに合わせたコードベースの書き換えを行うことなく、さまざまなハードウェアアクセラレータ上でモデルを実行できるようになります。

仕組み

Zig言語、MLIR、およびBazelを使用して構築されており、ZMLはモデルを複数のハードウェアバックエンドに直接コンパイルします。NVIDIA CUDA、AMD ROCm、Intel OneAPI、Google TPU、およびAWS Trainium/Inferentia 2を含む幅広いアクセラレータをサポートしており、選択したハードウェアで最高のパフォーマンスを確保します。

対象ユーザー

ハードウェアのロックインを回避し、マルチプラットフォーム展開のために単一のコードベースを維持したい、プロダクションAI推論システムを構築している開発者やエンジニアを対象としています。

ハイライト

  • マルチハードウェアサポート: NVIDIA、AMD、Intel、およびTPU/Trainiumアクセラレータ向けのネイティブコンパイル。
  • 統合されたコードベース: 単一のコードベースを使用して、多くのハードウェア上で任意のモデルを実行。
  • LLMサポート: Llama 3.1/3.2、Qwen 3.5、およびLFM 2.5を標準でサポート。
  • 柔軟なロード: VFSレイヤーを介してHugging Face、S3、またはローカルディレクトリからモデルをロードする機能。
  • 高性能: 実行速度を最大化するためにハードウェアへ直接コンパイル。

Sources