vllm-omni: any-to-any マルチモーダルおよび拡散モデル向けの高スループット・サービング・フレームワーク

何を解決するか

テキストベースの自己回帰生成にとどまらず、オムニ・モダリティ（全方位型）モデルのサービングをサポートするために vLLM フレームワークを拡張します。テキスト、画像、ビデオ、オーディオといった複数のデータタイプを処理・生成できるモデルの効率的なサービングを可能にし、Diffusion Transformers (DiT) のような非自己回帰アーキテクチャもサポートします。

仕組み

vLLM-Omni は、「OmniConnector」に基づいた完全に分離されたアーキテクチャと、ステージ間での動的なリソース割り当てを使用します。自己回帰タスクには vLLM の効率的な KV cache 管理を活用し、処理をオーバーラップさせてスループットを向上させるためにパイプライン化されたステージ実行を実装しています。複雑なマルチモーダル・ワークフローを管理するためのヘテロジニアスなパイプライン抽象化を提供し、さまざまな並列化戦略（tensor、pipeline、data、および expert）をサポートします。

対象者

大規模なオムニ・モーダル・モデル、TTS モデル、または拡散ベースの画像・ビデオ生成モデルを、高いパフォーマンスと OpenAI 互換の API を備えてデプロイおよびサービングする必要がある開発者や研究者。

ハイライト

Omni-modality support: テキスト、画像、ビデオ、オーディオの処理と生成を扱います。
Broad architecture support: 自己回帰および非自己回帰 (DiT) モデルの両方をサポートします。
High performance: パイプライン実行と効率的な KV cache 管理を特徴としています。
Hardware flexibility: CUDA、ROCm、MUSA、NPU、および XPU バックエンドと互換性があります。
Wide model compatibility: Qwen3-Omni、Cosmos、FLUX、およびさまざまな TTS モデルなどの人気のあるモデルをサポートします。

vllm-omni: any-to-any マルチモーダルおよび拡散モデル向けの高スループット・サービング・フレームワーク

vllm-omni: any-to-any マルチモーダルおよび拡散モデル向けの高スループット・サービング・フレームワーク

何を解決するか

仕組み

対象者

ハイライト

Sources