vllm-ascend: Ascend NPU 上で vLLM をシームレスに実行するハードウェアプラグイン

vllm-ascend: Ascend NPU 上で vLLM をシームレスに実行するハードウェアプラグイン

解決する課題

vLLM 推論エンジンを Ascend NPU(Neural Processing Unit)上でシームレスに動作させることができます。ハードウェアプラグイン可能なインターフェースを提供することで、Ascend 固有のコードをコア vLLM コードベースに密結合させる必要がなくなり、ユーザーはさまざまなオープンソースモデルを Ascend ハードウェア上でデプロイできるようになります。

仕組み

本プロジェクトは、ハードウェアプラグイン可能な RFC に基づく分離インターフェースを実装した、コミュニティがメンテナンスするハードウェアプラグインとして機能します。これにより、vLLM はハードウェア固有の詳細をコアエンジンのロジックに組み込むことなく、Ascend NPU バックエンドと通信できます。

対象者

Ascend ハードウェア(Atlas 800I や Atlas A2/A3 シリーズなど)を使用し、モデルに対して vLLM の高性能推論機能を活用したい開発者や AI エンジニア向けです。

ハイライト

  • 幅広いモデルサポート: Transformer 系モデル、Mixture-of-Experts(MoE)、Embedding モデル、マルチモーダル LLM をサポート。
  • ハードウェア互換性: Atlas 800I、A2/A3、Atlas A2/A3 Training シリーズ、Atlas 300I Duo(実験的)に対応。
  • 分離アーキテクチャ: プラグインベースのアプローチを採用し、Ascend 統合を vLLM 本体から分離。
  • エンタープライズ対応: CANN と PyTorch‑NPU と統合し、Ascend NPU 上で本番レベルの性能を実現。

要約: Ascend NPU 上で vLLM 推論エンジンを動作させるハードウェアプラグインで、幅広い LLM とマルチモーダルモデルをサポートします。

タイトル: vllm-ascend: Ascend NPU 上で vLLM をシームレスに実行するハードウェアプラグイン

Sources