vllm-omni: 모든 유형의 멀티모달 및 확산 모델을 위한 고처리량 서빙 프레임워크

vllm-omni: 모든 유형의 멀티모달 및 확산 모델을 위한 고처리량 서빙 프레임워크

해결하는 문제

텍스트 기반 자기회귀 생성(autoregressive generation)을 넘어 옴니-모달리티(omni-modality) 모델 서빙을 지원하도록 vLLM 프레임워크를 확장합니다. 텍스트, 이미지, 비디오, 오디오 등 다양한 유형의 데이터를 처리하고 생성할 수 있는 모델의 효율적인 서빙을 가능하게 하며, Diffusion Transformers (DiT)와 같은 비자기회귀(non-autoregressive) 아키텍처를 지원합니다.

작동 방식

vLLM-Omni는 "OmniConnector"와 스테이지 간 동적 리소스 할당을 기반으로 하는 완전 분리형(disaggregated) 아키텍처를 사용합니다. 자기회귀 작업에 대해 vLLM의 효율적인 KV cache 관리 기능을 활용하며, 처리 과정을 중첩시켜 처리량을 높이기 위해 파이프라인 스테이지 실행을 구현합니다. 복잡한 멀티모달 워크플로우를 관리하기 위해 이기종 파이프라인 추상화를 제공하며, 다양한 병렬화 전략(tensor, pipeline, data, and expert)을 지원합니다.

대상 사용자

대규모 옴니-모달 모델, TTS 모델, 또는 확산 기반 이미지 및 비디오 생성 모델을 높은 성능과 OpenAI 호환 API로 배포하고 서빙해야 하는 개발자와 연구자.

주요 특징

  • Omni-modality 지원: 텍스트, 이미지, 비디오, 오디오 처리 및 생성을 처리합니다.
  • 광범위한 아키텍처 지원: 자기회귀 및 비자기회귀 (DiT) 모델을 모두 지원합니다.
  • 고성능: 파이프라인 실행 및 효율적인 KV cache 관리를 특징으로 합니다.
  • 하드웨어 유연성: CUDA, ROCm, MUSA, NPU, XPU 백엔드와 호환됩니다.
  • 폭넓은 모델 호환성: Qwen3-Omni, Cosmos, FLUX 및 다양한 TTS 모델과 같은 인기 있는 모델을 지원합니다.

Sources