TurboDiffusion: 拡散レイテンシを100-200倍削減するビデオ生成加速フレームワーク

TurboDiffusion: 拡散レイテンシを100-200倍削減するビデオ生成加速フレームワーク

何を解決するか

TurboDiffusionは、ビデオ拡散モデルの高い計算コストと生成速度の遅さを解決します。ビデオの品質を維持しながら、単一のRTX 5090 GPU上で100倍から200倍の高速化を実現し、エンドツーエンドの生成レイテンシを大幅に削減します。

仕組み

このフレームワークは、主に3つの技術を組み合わせることで加速を実現します：

Attention Acceleration: SageAttentionとSparse-Linear Attention (SLA)を利用してアテンションメカニズムを最適化します。
Timestep Distillation: rCMを用いてタイムステップ蒸留を行い、必要なサンプリングステップ数を削減します。
Quantization: 線形層（linear layers）に対して量子化チェックポイントを提供し、RTX 4090や5090のようなコンシューマー向けGPUでの効率的な実行を可能にします。

対象者

このプロジェクトは、ビデオ生成モデル（特にWanシリーズ）を扱う開発者や研究者で、数分や数時間ではなく、数秒で高品質なビデオ（480pまたは720p）を生成する必要がある方を対象としています。

ハイライト

大幅な高速化: RTX 5090において、特定のモデルの生成時間を184秒から1.9秒に短縮します。
SLA Support: SageAttentionに基づく高速なSLAフォワードパスであるSageSLAを含んでいます。
Flexible Modalities: Text-to-Video (T2V) と Image-to-Video (I2V) の両方の生成をサポートしています。
Hardware Optimized: ハイエンドなデータセンター向けGPU (H100) とコンシューマー向けGPU (RTX 5090/4090) の両方に特化した構成とチェックポイントを提供します。

Sources

undefinedthu-ml/TurboDiffusion