zml: 一个将 AI 工作负载与专用硬件解耦的生产级推理栈

zml: 一个将 AI 工作负载与专用硬件解耦的生产级推理栈

它解决了什么问题

ZML 是一个旨在将 AI 工作负载与专用硬件解耦的生产级推理栈。它允许开发者在各种硬件加速器上运行模型,而无需为每个特定平台重写代码库。

工作原理

ZML 使用 Zig 语言、MLIR 和 Bazel 构建,可将模型直接编译到多种硬件后端。它支持广泛的加速器,包括 NVIDIA CUDA、AMD ROCm、Intel OneAPI、Google TPU 和 AWS Trainium/Inferentia 2,从而确保在任何选定的硬件上都能达到峰值性能。

适用人群

它适用于构建生产级 AI 推理系统的开发者和工程师,他们希望避免硬件锁定,并为多平台部署维护单一的代码库。

亮点

  • 多硬件支持:针对 NVIDIA、AMD、Intel 以及 TPU/Trainium 加速器的原生编译。
  • 统一的代码库:使用单一代码库在多种硬件上运行任何模型。
  • LLM 支持:开箱即用地支持 Llama 3.1/3.2、Qwen 3.5 和 LFM 2.5。
  • 灵活的加载方式:能够通过 VFS 层从 Hugging Face、S3 或本地目录加载模型。
  • 高性能:直接编译到硬件以实现峰值执行速度。

Sources