TurboDiffusion:一种将视频生成扩散延迟降低 100‑200 倍的加速框架

TurboDiffusion:一种将视频生成扩散延迟降低 100‑200 倍的加速框架

它解决了什么问题

TurboDiffusion 旨在应对视频扩散模型的高计算成本和生成速度慢的问题。它显著降低了端到端的生成延迟,声称在单块 RTX 5090 GPU 上可实现 100 到 200 倍的加速,同时保持视频质量。

工作原理

该框架通过以下三项核心技术实现加速:

  • 注意力加速:使用 SageAttention 和稀疏线性注意力(SLA)来优化注意力机制。
  • 时间步蒸馏:采用 rCM 进行时间步蒸馏,以减少所需的采样步数。
  • 量化:提供线性层的量化检查点,使其能够在 RTX 4090、RTX 5090 等消费级 GPU 上高效运行。

适用人群

本项目面向使用视频生成模型(尤其是 Wan 系列)的开发者和研究者,他们需要在几秒钟内而不是几分钟或几小时内生成高质量视频(480p 或 720p)。

亮点

  • 巨大的加速:在 RTX 5090 上将某些模型的生成时间从 184 秒降低至 1.9 秒。
  • SLA 支持:包含基于 SageAttention 的快速 SLA 前向传播实现 SageSLA。
  • 灵活的模态:支持文本到视频(T2V)和图像到视频(I2V)生成。
  • 硬件优化:提供针对高端数据中心 GPU(H100)和消费级 GPU(RTX 5090/4090)的专用配置和检查点。

摘要: TurboDiffusion 是一种视频生成加速框架,通过注意力优化和时间步蒸馏,在单 GPU 上实现 100‑200 倍的扩散生成加速。

标题: TurboDiffusion:一种将视频生成扩散延迟降低 100‑200 倍的加速框架

Sources