FastVideo: 加速されたビデオ生成のための統合されたポストトレーニングおよびリアルタイム推論フレームワーク

FastVideo: 加速されたビデオ生成のための統合されたポストトレーニングおよびリアルタイム推論フレームワーク

何を解決するか

FastVideoは、最先端のビデオ生成モデルに関連する高い計算コストと遅い生成速度に対処します。ビデオ Diffusion Transformers (DiTs) のポストトレーニング(ファインチューニングおよび蒸留)とリアルタイム推論の両方を加速するための統合されたフレームワークを提供します。

仕組み

FastVideoは、レイテンシを削減しスループットを向上させるために、いくつかの最適化技術を採用しています:

  • ポストトレーニングの最適化: フルおよび LoRA ファインチューニング、ならびに Distribution Matching Distillation (DMD2) とスパース蒸留をサポートし、大幅なデノイジング速度の向上(50倍以上)を実現します。
  • アテンション・メカニズム: ビデオフレームの処理の複雑さを軽減するために、Video Sparse Attention (VSA) や Sliding Tile Attention を含む、特化されたアテンション・バックエンドを実装しています。
  • 推論のスケーリング: このフレームワークは、複数の GPU を使用した分散推論のためにシーケンス・パラレリズムを利用し、さまざまなハードウェア (H100, A100, 4090) およびオペレーティングシステムをサポートしています。
  • リアルタイム・ストリーミング: Dreamverse プラットフォームを通じて、「vibe directing」を可能にし、ユーザーがビデオをリアルタイムでストリーミングおよび編集できるようにします。

対象者

このフレームワークは、推論レイテンシを削減したり、特化されたビデオモデルをトレーニングまたは蒸留したりする必要がある、高性能なビデオ生成アプリケーションを構築する AI 研究者および開発者向けに設計されています。

ハイライト

  • 大幅な速度向上: FastWan-QAD を使用して、エンドツーエンドで 5 秒間のビデオを 1.8 秒で生成可能です。
  • 包括的なツール群: ビデオ、画像、およびテキストのための完全なデータ前処理パイプラインを含みます。
  • スケーラブルなトレーニング: FSDP2、シーケンス・パラレリズム、および選択的アクティベーション・チェックポインティングをサポートしています。
  • リアルタイム・インターフェース: リアルタイムなビデオ生成と編集のための Web UI である Dreamverse を含みます。

Sources