zml: 一個將 AI 工作負載與專有硬體解耦的生產級推論堆疊

zml: 一個將 AI 工作負載與專有硬體解耦的生產級推論堆疊

它解決了什麼問題

ZML 是一個專為將 AI 工作負載與專有硬體解耦而設計的生產級推論堆疊。它允許開發者在各種硬體加速器上執行模型,而無需為每個特定平台重寫程式碼。

運作原理

ZML 使用 Zig 語言、MLIR 和 Bazel 建構,可將模型直接編譯至多種硬體後端。它支援廣泛的加速器,包括 NVIDIA CUDA、AMD ROCm、Intel OneAPI、Google TPU 以及 AWS Trainium/Inferentia 2,確保在任何選擇的硬體上都能發揮巔峰效能。

目標對象

它旨在服務於正在建構生產級 AI 推論系統的開發者與工程師,這些開發者希望避免硬體鎖定,並在多平台部署時維持單一程式碼庫。

重點特色

  • 多硬體支援:針對 NVIDIA、AMD、Intel 以及 TPU/Trainium 加速器提供原生編譯。
  • 統一程式碼庫:使用單一程式碼庫即可在多種硬體上執行任何模型。
  • LLM 支援:開箱即用支援 Llama 3.1/3.2、Qwen 3.5 以及 LFM 2.5。
  • 靈活載入:能夠透過 VFS 層從 Hugging Face、S3 或本地目錄載入模型。
  • 高效能:直接編譯至硬體以獲得巔峰執行速度。

Sources