TurboDiffusion:一种将视频生成扩散延迟降低 100‑200 倍的加速框架
TurboDiffusion:一种将视频生成扩散延迟降低 100‑200 倍的加速框架
它解决了什么问题
TurboDiffusion 旨在应对视频扩散模型的高计算成本和生成速度慢的问题。它显著降低了端到端的生成延迟,声称在单块 RTX 5090 GPU 上可实现 100 到 200 倍的加速,同时保持视频质量。
工作原理
该框架通过以下三项核心技术实现加速:
- 注意力加速:使用 SageAttention 和稀疏线性注意力(SLA)来优化注意力机制。
- 时间步蒸馏:采用 rCM 进行时间步蒸馏,以减少所需的采样步数。
- 量化:提供线性层的量化检查点,使其能够在 RTX 4090、RTX 5090 等消费级 GPU 上高效运行。
适用人群
本项目面向使用视频生成模型(尤其是 Wan 系列)的开发者和研究者,他们需要在几秒钟内而不是几分钟或几小时内生成高质量视频(480p 或 720p)。
亮点
- 巨大的加速:在 RTX 5090 上将某些模型的生成时间从 184 秒降低至 1.9 秒。
- SLA 支持:包含基于 SageAttention 的快速 SLA 前向传播实现 SageSLA。
- 灵活的模态:支持文本到视频(T2V)和图像到视频(I2V)生成。
- 硬件优化:提供针对高端数据中心 GPU(H100)和消费级 GPU(RTX 5090/4090)的专用配置和检查点。
摘要: TurboDiffusion 是一种视频生成加速框架,通过注意力优化和时间步蒸馏,在单 GPU 上实现 100‑200 倍的扩散生成加速。
标题: TurboDiffusion:一种将视频生成扩散延迟降低 100‑200 倍的加速框架
Sources
- undefinedthu-ml/TurboDiffusion