vllm-omni：面向任意到任意多模态和扩散模型的高吞吐量服务框架

它解决了什么问题

它在 vLLM 框架的基础上扩展，支持全模态模型服务，突破仅限文本自回归生成的局限。它能够高效地服务能够处理并生成多种数据类型（文本、图像、视频和音频）的模型，并支持诸如 Diffusion Transformers（DiT）等非自回归架构。

工作原理

vLLM-Omni 使用基于 “OmniConnector” 的完全解耦架构，并在各阶段之间进行动态资源分配。它利用 vLLM 对自回归任务的高效 KV 缓存管理，并实现流水线阶段执行，以重叠处理过程并提升吞吐量。它提供异构流水线抽象来管理复杂的多模态工作流，并支持多种并行策略（张量、流水线、数据和专家）。

适用人群

需要部署和服务大规模全模态模型、文本到语音（TTS）模型或基于扩散的图像、视频生成模型的开发者和研究者，要求高性能并兼容 OpenAI API。

亮点

全模态支持：处理并生成文本、图像、视频和音频。
广泛的架构支持：兼容自回归和非自回归（DiT）模型。
高性能：具备流水线执行和高效 KV 缓存管理。
硬件灵活性：兼容 CUDA、ROCm、MUSA、NPU 和 XPU 后端。
模型兼容性广：支持 Qwen3-Omni、Cosmos、FLUX 等流行模型以及各种 TTS 模型。

摘要

vLLM 的扩展，为全模态模型提供高性能服务框架，支持文本、图像、视频和音频生成，兼容多种硬件后端。

标题

vllm-omni：面向任意到任意多模态和扩散模型的高吞吐量服务框架

vllm-omni：面向任意到任意多模态和扩散模型的高吞吐量服务框架

vllm-omni：面向任意到任意多模态和扩散模型的高吞吐量服务框架

它解决了什么问题

工作原理

适用人群

亮点

摘要

标题

Sources