vllm-ascend: Ascend NPU에서 vLLM을 원활하게 실행하기 위한 하드웨어 플러그인

해결하는 문제

vLLM 추론 엔진이 Ascend NPU(Neural Processing Unit)에서 별다른 수정 없이 실행될 수 있게 합니다. 하드웨어 플러그가능한 인터페이스를 제공함으로써 Ascend 전용 코드를 핵심 vLLM 코드베이스에 강하게 결합할 필요가 없어지며, 사용자는 다양한 오픈소스 모델을 Ascend 하드웨어에 배포할 수 있습니다.

작동 방식

이 프로젝트는 커뮤니티가 유지하는 하드웨어 플러그인으로, 하드웨어 플러그가능한 RFC 기반의 분리된 인터페이스를 구현합니다. 이를 통해 vLLM은 하드웨어별 세부 사항을 핵심 엔진 로직에 반영하지 않고도 Ascend NPU 백엔드와 통신할 수 있습니다.

대상 사용자

Ascend 하드웨어(예: Atlas 800I 또는 Atlas A2/A3 시리즈)를 사용하고 모델에 대해 vLLM의 고성능 추론 기능을 활용하고자 하는 개발자 및 AI 엔지니어.

주요 특징

광범위한 모델 지원: Transformer 계열 모델, Mixture-of-Experts (MoE), 임베딩 모델, 멀티모달 LLM을 지원합니다.
하드웨어 호환성: Atlas 800I A2/A3, Atlas A2/A3 Training 시리즈, 그리고 Atlas 300I Duo(실험적)와 호환됩니다.
분리된 아키텍처: 플러그인 기반 접근 방식을 사용해 Ascend 통합을 주요 vLLM 코어와 분리합니다.
엔터프라이즈 준비: CANN 및 PyTorch‑NPU와 통합되어 Ascend NPU에서 프로덕션 수준의 성능을 제공합니다.

요약

Ascend NPU에서 vLLM 추론 엔진을 실행할 수 있게 해 주는 하드웨어 플러그인으로, 다양한 LLM 및 멀티모달 모델을 지원합니다.

제목

vllm-ascend: Ascend NPU에서 vLLM을 원활하게 실행하기 위한 하드웨어 플러그인

vllm-ascend: Ascend NPU에서 vLLM을 원활하게 실행하기 위한 하드웨어 플러그인

vllm-ascend: Ascend NPU에서 vLLM을 원활하게 실행하기 위한 하드웨어 플러그인

해결하는 문제

작동 방식

대상 사용자

주요 특징

요약

제목

Sources