FastVideo: 一個用於加速影片生成的統一後訓練與即時推論框架

FastVideo: 一個用於加速影片生成的統一後訓練與即時推論框架

它解決了什麼問題

FastVideo 解決了與尖端影片生成模型相關的高計算成本和緩慢生成速度的問題。它提供了一個統一的框架，用於加速影片 Diffusion Transformers (DiTs) 的後訓練（微調與蒸餾）以及即時推論。

運作原理

FastVideo 採用了多種優化技術來降低延遲並提高吞吐量：

後訓練優化：它支援全量微調與 LoRA 微調，以及分佈式匹配蒸餾 (DMD2) 和稀疏蒸餾，以實現顯著的去噪加速（超過 50 倍）。
注意力機制：它實現了專門的注意力後端，包括 Video Sparse Attention (VSA) 和 Sliding Tile Attention，以降低處理影片幀的複雜度。
推論縮放：該框架利用序列並行 (sequence parallelism) 進行跨多個 GPU 的分佈式推論，並支援各種硬體（H100, A100, 4090）和作業系統。
即時串流：透過其 Dreamverse 平台，它實現了「氛圍引導」(vibe directing)，允許使用者即時串流並編輯影片。

對象是誰

此框架專為正在構建高效能影片生成應用程式的 AI 研究人員與開發人員設計，他們需要降低推論延遲或訓練/蒸餾專用的影片模型。

重點亮點

極速加速：使用 FastWan-QAD 能夠在 1.8 秒內端到端生成 5 秒的影片。
全面的工具鏈：包含完整的影片、圖像與文本數據預處理流水線。
可擴展的訓練：支援 FSDP2、序列並行 (sequence parallelism) 以及選擇性激活檢查點 (selective activation checkpointing)。
即時介面：包含 Dreamverse，一個用於即時影片生成與編輯的 Web UI。

Sources

undefinedhao-ai-lab/FastVideo