zml: 一個將 AI 工作負載與專有硬體解耦的生產級推論堆疊

它解決了什麼問題

ZML 是一個專為將 AI 工作負載與專有硬體解耦而設計的生產級推論堆疊。它允許開發者在各種硬體加速器上執行模型，而無需為每個特定平台重寫程式碼。

運作原理

ZML 使用 Zig 語言、MLIR 和 Bazel 建構，可將模型直接編譯至多種硬體後端。它支援廣泛的加速器，包括 NVIDIA CUDA、AMD ROCm、Intel OneAPI、Google TPU 以及 AWS Trainium/Inferentia 2，確保在任何選擇的硬體上都能發揮巔峰效能。

目標對象

它旨在服務於正在建構生產級 AI 推論系統的開發者與工程師，這些開發者希望避免硬體鎖定，並在多平台部署時維持單一程式碼庫。

重點特色

多硬體支援：針對 NVIDIA、AMD、Intel 以及 TPU/Trainium 加速器提供原生編譯。
統一程式碼庫：使用單一程式碼庫即可在多種硬體上執行任何模型。
LLM 支援：開箱即用支援 Llama 3.1/3.2、Qwen 3.5 以及 LFM 2.5。
靈活載入：能夠透過 VFS 層從 Hugging Face、S3 或本地目錄載入模型。
高效能：直接編譯至硬體以獲得巔峰執行速度。

zml: 一個將 AI 工作負載與專有硬體解耦的生產級推論堆疊

zml: 一個將 AI 工作負載與專有硬體解耦的生產級推論堆疊

它解決了什麼問題

運作原理

目標對象

重點特色

Sources