zml: 一个将 AI 工作负载与专用硬件解耦的生产级推理栈

它解决了什么问题

ZML 是一个旨在将 AI 工作负载与专用硬件解耦的生产级推理栈。它允许开发者在各种硬件加速器上运行模型，而无需为每个特定平台重写代码库。

工作原理

ZML 使用 Zig 语言、MLIR 和 Bazel 构建，可将模型直接编译到多种硬件后端。它支持广泛的加速器，包括 NVIDIA CUDA、AMD ROCm、Intel OneAPI、Google TPU 和 AWS Trainium/Inferentia 2，从而确保在任何选定的硬件上都能达到峰值性能。

适用人群

它适用于构建生产级 AI 推理系统的开发者和工程师，他们希望避免硬件锁定，并为多平台部署维护单一的代码库。

亮点

多硬件支持：针对 NVIDIA、AMD、Intel 以及 TPU/Trainium 加速器的原生编译。
统一的代码库：使用单一代码库在多种硬件上运行任何模型。
LLM 支持：开箱即用地支持 Llama 3.1/3.2、Qwen 3.5 和 LFM 2.5。
灵活的加载方式：能够通过 VFS 层从 Hugging Face、S3 或本地目录加载模型。
高性能：直接编译到硬件以实现峰值执行速度。

zml: 一个将 AI 工作负载与专用硬件解耦的生产级推理栈

zml: 一个将 AI 工作负载与专用硬件解耦的生产级推理栈

它解决了什么问题

工作原理

适用人群

亮点

Sources