zml: 一个将 AI 工作负载与专用硬件解耦的生产级推理栈
zml: 一个将 AI 工作负载与专用硬件解耦的生产级推理栈
它解决了什么问题
ZML 是一个旨在将 AI 工作负载与专用硬件解耦的生产级推理栈。它允许开发者在各种硬件加速器上运行模型,而无需为每个特定平台重写代码库。
工作原理
ZML 使用 Zig 语言、MLIR 和 Bazel 构建,可将模型直接编译到多种硬件后端。它支持广泛的加速器,包括 NVIDIA CUDA、AMD ROCm、Intel OneAPI、Google TPU 和 AWS Trainium/Inferentia 2,从而确保在任何选定的硬件上都能达到峰值性能。
适用人群
它适用于构建生产级 AI 推理系统的开发者和工程师,他们希望避免硬件锁定,并为多平台部署维护单一的代码库。
亮点
- 多硬件支持:针对 NVIDIA、AMD、Intel 以及 TPU/Trainium 加速器的原生编译。
- 统一的代码库:使用单一代码库在多种硬件上运行任何模型。
- LLM 支持:开箱即用地支持 Llama 3.1/3.2、Qwen 3.5 和 LFM 2.5。
- 灵活的加载方式:能够通过 VFS 层从 Hugging Face、S3 或本地目录加载模型。
- 高性能:直接编译到硬件以实现峰值执行速度。
Sources
- undefinedzml/zml