FastVideo: 加速されたビデオ生成のための統合されたポストトレーニングおよびリアルタイム推論フレームワーク

何を解決するか

FastVideoは、最先端のビデオ生成モデルに関連する高い計算コストと遅い生成速度に対処します。ビデオ Diffusion Transformers (DiTs) のポストトレーニング（ファインチューニングおよび蒸留）とリアルタイム推論の両方を加速するための統合されたフレームワークを提供します。

FastVideoは、レイテンシを削減しスループットを向上させるために、いくつかの最適化技術を採用しています：

ポストトレーニングの最適化: フルおよび LoRA ファインチューニング、ならびに Distribution Matching Distillation (DMD2) とスパース蒸留をサポートし、大幅なデノイジング速度の向上（50倍以上）を実現します。
アテンション・メカニズム: ビデオフレームの処理の複雑さを軽減するために、Video Sparse Attention (VSA) や Sliding Tile Attention を含む、特化されたアテンション・バックエンドを実装しています。
推論のスケーリング: このフレームワークは、複数の GPU を使用した分散推論のためにシーケンス・パラレリズムを利用し、さまざまなハードウェア (H100, A100, 4090) およびオペレーティングシステムをサポートしています。
リアルタイム・ストリーミング: Dreamverse プラットフォームを通じて、「vibe directing」を可能にし、ユーザーがビデオをリアルタイムでストリーミングおよび編集できるようにします。

このフレームワークは、推論レイテンシを削減したり、特化されたビデオモデルをトレーニングまたは蒸留したりする必要がある、高性能なビデオ生成アプリケーションを構築する AI 研究者および開発者向けに設計されています。