vllm-omni:一個高吞吐量的任意到任意多模態與擴散模型服務框架

vllm-omni:一個高吞吐量的任意到任意多模態與擴散模型服務框架

它解決了什麼問題

它在 vLLM 框架的基礎上擴展,支援 omni‑modality(全模態)模型服務,超越僅限文字的自回歸生成。它能高效地服務能同時處理與生成多種資料類型(文字、影像、影片與音訊)的模型,並支援如 Diffusion Transformers(DiT)等非自回歸架構。

工作原理

vLLM‑Omni 採用基於「OmniConnector」的完全解耦架構,並在各階段之間動態分配資源。它利用 vLLM 高效的 KV 快取管理來處理自回歸任務,並實作流水線階段執行以重疊處理流程、提升吞吐量。它提供異質流水線抽象,用於管理複雜的多模態工作流,並支援多種平行化策略(tensor、pipeline、data 與 expert)。

目標使用者

需要部署與服務大規模 omni‑modal 模型、語音合成(TTS)模型,或基於擴散的影像與影片生成模型,且要求高效能與相容 OpenAI API 的開發者與研究人員。

重點特色

  • 全模態支援:處理與生成文字、影像、影片與音訊。
  • 廣泛的架構支援:同時支援自回歸與非自回歸(DiT)模型。
  • 高效能:具備流水線執行與高效的 KV 快取管理。
  • 硬體彈性:相容 CUDA、ROCm、MUSA、NPU 與 XPU 後端。
  • 廣泛的模型相容性:支援如 Qwen3‑Omni、Cosmos、FLUX 以及各種 TTS 模型等熱門模型。

Sources