TurboDiffusion：一种将视频生成扩散延迟降低 100‑200 倍的加速框架

TurboDiffusion：一种将视频生成扩散延迟降低 100‑200 倍的加速框架

它解决了什么问题

TurboDiffusion 旨在应对视频扩散模型的高计算成本和生成速度慢的问题。它显著降低了端到端的生成延迟，声称在单块 RTX 5090 GPU 上可实现 100 到 200 倍的加速，同时保持视频质量。

工作原理

该框架通过以下三项核心技术实现加速：

注意力加速：使用 SageAttention 和稀疏线性注意力（SLA）来优化注意力机制。
时间步蒸馏：采用 rCM 进行时间步蒸馏，以减少所需的采样步数。
量化：提供线性层的量化检查点，使其能够在 RTX 4090、RTX 5090 等消费级 GPU 上高效运行。

适用人群

本项目面向使用视频生成模型（尤其是 Wan 系列）的开发者和研究者，他们需要在几秒钟内而不是几分钟或几小时内生成高质量视频（480p 或 720p）。

亮点

巨大的加速：在 RTX 5090 上将某些模型的生成时间从 184 秒降低至 1.9 秒。
SLA 支持：包含基于 SageAttention 的快速 SLA 前向传播实现 SageSLA。
灵活的模态：支持文本到视频（T2V）和图像到视频（I2V）生成。
硬件优化：提供针对高端数据中心 GPU（H100）和消费级 GPU（RTX 5090/4090）的专用配置和检查点。

摘要： TurboDiffusion 是一种视频生成加速框架，通过注意力优化和时间步蒸馏，在单 GPU 上实现 100‑200 倍的扩散生成加速。

标题： TurboDiffusion：一种将视频生成扩散延迟降低 100‑200 倍的加速框架

Sources

undefinedthu-ml/TurboDiffusion