vllm-omni:面向任意到任意多模态和扩散模型的高吞吐量服务框架
vllm-omni:面向任意到任意多模态和扩散模型的高吞吐量服务框架
它解决了什么问题
它在 vLLM 框架的基础上扩展,支持全模态模型服务,突破仅限文本自回归生成的局限。它能够高效地服务能够处理并生成多种数据类型(文本、图像、视频和音频)的模型,并支持诸如 Diffusion Transformers(DiT)等非自回归架构。
工作原理
vLLM-Omni 使用基于 “OmniConnector” 的完全解耦架构,并在各阶段之间进行动态资源分配。它利用 vLLM 对自回归任务的高效 KV 缓存管理,并实现流水线阶段执行,以重叠处理过程并提升吞吐量。它提供异构流水线抽象来管理复杂的多模态工作流,并支持多种并行策略(张量、流水线、数据和专家)。
适用人群
需要部署和服务大规模全模态模型、文本到语音(TTS)模型或基于扩散的图像、视频生成模型的开发者和研究者,要求高性能并兼容 OpenAI API。
亮点
- 全模态支持:处理并生成文本、图像、视频和音频。
- 广泛的架构支持:兼容自回归和非自回归(DiT)模型。
- 高性能:具备流水线执行和高效 KV 缓存管理。
- 硬件灵活性:兼容 CUDA、ROCm、MUSA、NPU 和 XPU 后端。
- 模型兼容性广:支持 Qwen3-Omni、Cosmos、FLUX 等流行模型以及各种 TTS 模型。
摘要
vLLM 的扩展,为全模态模型提供高性能服务框架,支持文本、图像、视频和音频生成,兼容多种硬件后端。
标题
vllm-omni:面向任意到任意多模态和扩散模型的高吞吐量服务框架
Sources
- undefinedvllm-project/vllm-omni