vllm-ascend:在 Ascend NPU 上无缝运行 vLLM 的硬件插件

vllm-ascend:在 Ascend NPU 上无缝运行 vLLM 的硬件插件

它解决了什么问题

它使 vLLM 推理引擎能够在 Ascend NPU(神经处理单元)上无缝运行。通过提供硬件可插拔接口,消除了在核心 vLLM 代码库中紧耦合 Ascend 专用代码的需求,从而让用户能够在 Ascend 硬件上部署各种开源模型。

工作原理

该项目充当社区维护的硬件插件,实现了基于硬件可插拔 RFC 的解耦接口。这使得 vLLM 能够在不修改核心引擎逻辑以适配每个硬件细节的情况下,与 Ascend NPU 后端进行通信。

适用人群

使用 Ascend 硬件(如 Atlas 800I 或 Atlas A2/A3 系列)的开发者和 AI 工程师,想要利用 vLLM 的高性能推理能力来运行自己的模型。

亮点

  • 广泛的模型支持:支持类 Transformer 模型、Mixture-of-Experts(MoE)、Embedding 模型以及多模态大语言模型(LLM)。
  • 硬件兼容性:兼容 Atlas 800I、A2/A3、Atlas A2/A3 训练系列以及 Atlas 300I Duo(实验性)。
  • 解耦架构:采用插件化方式,将 Ascend 集成与 vLLM 主核心分离。
  • 企业级准备:已集成 CANN 和 PyTorch‑NPU,提供在 Ascend NPU 上的生产级性能。

摘要: 一个硬件插件,使 vLLM 推理引擎能够在 Ascend NPU 上运行,支持广泛的 LLM 和多模态模型。

标题: vllm-ascend:在 Ascend NPU 上无缝运行 vLLM 的硬件插件

Sources