vllm-omni: any-to-any マルチモーダルおよび拡散モデル向けの高スループット・サービング・フレームワーク
vllm-omni: any-to-any マルチモーダルおよび拡散モデル向けの高スループット・サービング・フレームワーク
何を解決するか
テキストベースの自己回帰生成にとどまらず、オムニ・モダリティ(全方位型)モデルのサービングをサポートするために vLLM フレームワークを拡張します。テキスト、画像、ビデオ、オーディオといった複数のデータタイプを処理・生成できるモデルの効率的なサービングを可能にし、Diffusion Transformers (DiT) のような非自己回帰アーキテクチャもサポートします。
仕組み
vLLM-Omni は、「OmniConnector」に基づいた完全に分離されたアーキテクチャと、ステージ間での動的なリソース割り当てを使用します。自己回帰タスクには vLLM の効率的な KV cache 管理を活用し、処理をオーバーラップさせてスループットを向上させるためにパイプライン化されたステージ実行を実装しています。複雑なマルチモーダル・ワークフローを管理するためのヘテロジニアスなパイプライン抽象化を提供し、さまざまな並列化戦略(tensor、pipeline、data、および expert)をサポートします。
対象者
大規模なオムニ・モーダル・モデル、TTS モデル、または拡散ベースの画像・ビデオ生成モデルを、高いパフォーマンスと OpenAI 互換の API を備えてデプロイおよびサービングする必要がある開発者や研究者。
ハイライト
- Omni-modality support: テキスト、画像、ビデオ、オーディオの処理と生成を扱います。
- Broad architecture support: 自己回帰および非自己回帰 (DiT) モデルの両方をサポートします。
- High performance: パイプライン実行と効率的な KV cache 管理を特徴としています。
- Hardware flexibility: CUDA、ROCm、MUSA、NPU、および XPU バックエンドと互換性があります。
- Wide model compatibility: Qwen3-Omni、Cosmos、FLUX、およびさまざまな TTS モデルなどの人気のあるモデルをサポートします。
Sources
- undefinedvllm-project/vllm-omni