FastVideo: 一个用于加速视频生成的统一后训练与实时推理框架

FastVideo: 一个用于加速视频生成的统一后训练与实时推理框架

它解决了什么问题

FastVideo 解决了与最先进的视频生成模型相关的计算成本高和生成速度慢的问题。它提供了一个统一的框架,用于加速视频 Diffusion Transformers (DiTs) 的后训练(微调和蒸馏)以及实时推理。

工作原理

FastVideo 采用了多种优化技术来降低延迟并提高吞吐量:

  • 后训练优化:它支持全量微调和 LoRA 微调,以及 Distribution Matching Distillation (DMD2) 和稀疏蒸馏,以实现显著的去噪加速(超过 50x)。
  • 注意力机制:它实现了专门的注意力后端,包括 Video Sparse Attention (VSA) 和 Sliding Tile Attention,以降低处理视频帧的复杂度。
  • 推理扩展性:该框架利用序列并行(sequence parallelism)在多个 GPU 上进行分布式推理,并支持各种硬件(H100, A100, 4090)和操作系统。
  • 实时流式传输:通过其 Dreamverse 平台,它实现了“氛围引导”(vibe directing),允许用户实时流式传输并编辑视频。

适用人群

该框架专为构建高性能视频生成应用的 AI 研究人员和开发者设计,他们需要降低推理延迟或训练/蒸馏专门的视频模型。

亮点

  • 大幅加速:使用 FastWan-QAD,能够实现 1.8 秒端到端生成 5 秒视频。
  • 全面的工具链:包括用于视频、图像和文本的完整数据预处理流水线。
  • 可扩展的训练:支持 FSDP2、序列并行(sequence parallelism)和选择性激活检查点(selective activation checkpointing)。
  • 实时界面:包括 Dreamverse,一个用于实时视频生成和编辑的 Web UI。

Sources