vllm-ascend:在 Ascend NPU 上無縫執行 vLLM 的硬體外掛程式

vllm-ascend:在 Ascend NPU 上無縫執行 vLLM 的硬體外掛程式

它解決了什麼問題

它讓 vLLM 推論引擎能夠在 Ascend NPU(神經處理單元)上無縫運行。透過提供硬體可插拔介面,消除了在核心 vLLM 程式碼庫中緊耦合 Ascend 專屬程式碼的需求,使用者即可在 Ascend 硬體上部署各式開源模型。

它如何運作

此專案作為社群維護的硬體外掛程式,實作基於硬體可插拔 RFC 的解耦介面。這使得 vLLM 能在不修改核心引擎邏輯的前提下,與 Ascend NPU 後端進行溝通,無需針對每個硬體細節進行調整。

目標對象

使用 Ascend 硬體(如 Atlas 800I 或 Atlas A2/A3 系列)的開發者與 AI 工程師,並希望為其模型利用 vLLM 的高效能推論能力。

重點特色

  • 廣泛的模型支援:支援類 Transformer 模型、Mixture-of-Experts(MoE)、Embedding 模型以及多模態 LLM。
  • 硬體相容性:相容於 Atlas 800I、A2/A3、Atlas A2/A3 訓練系列,以及 Atlas 300I Duo(實驗性)。
  • 解耦架構:採用外掛式方法,將 Ascend 整合與 vLLM 主核心分離。
  • 企業級就緒:結合 CANN 與 PyTorch‑NPU,提供在 Ascend NPU 上的生產級效能。

Sources