vllm-omni：一個高吞吐量的任意到任意多模態與擴散模型服務框架

它解決了什麼問題

它在 vLLM 框架的基礎上擴展，支援 omni‑modality（全模態）模型服務，超越僅限文字的自回歸生成。它能高效地服務能同時處理與生成多種資料類型（文字、影像、影片與音訊）的模型，並支援如 Diffusion Transformers（DiT）等非自回歸架構。

工作原理

vLLM‑Omni 採用基於「OmniConnector」的完全解耦架構，並在各階段之間動態分配資源。它利用 vLLM 高效的 KV 快取管理來處理自回歸任務，並實作流水線階段執行以重疊處理流程、提升吞吐量。它提供異質流水線抽象，用於管理複雜的多模態工作流，並支援多種平行化策略（tensor、pipeline、data 與 expert）。

目標使用者

需要部署與服務大規模 omni‑modal 模型、語音合成（TTS）模型，或基於擴散的影像與影片生成模型，且要求高效能與相容 OpenAI API 的開發者與研究人員。

重點特色

全模態支援：處理與生成文字、影像、影片與音訊。
廣泛的架構支援：同時支援自回歸與非自回歸（DiT）模型。
高效能：具備流水線執行與高效的 KV 快取管理。
硬體彈性：相容 CUDA、ROCm、MUSA、NPU 與 XPU 後端。
廣泛的模型相容性：支援如 Qwen3‑Omni、Cosmos、FLUX 以及各種 TTS 模型等熱門模型。

vllm-omni：一個高吞吐量的任意到任意多模態與擴散模型服務框架

vllm-omni：一個高吞吐量的任意到任意多模態與擴散模型服務框架

它解決了什麼問題

工作原理

目標使用者

重點特色

Sources