Sana：面向高效的框架，用于支持 4K 图像和实时流式的高分辨率图像与视频生成

Sana：面向高效的框架，用于支持 4K 图像和实时流式的高分辨率图像与视频生成

它解决了什么问题

SANA 旨在显著提升高分辨率图像和视频生成的效率。它针对生成 4K 图像或长时视频时通常伴随的高计算成本和内存需求进行优化，使这些任务能够在消费级硬件上运行（包括显存不足 8GB 的笔记本 GPU）。

工作原理

SANA 采用多项关键架构优化来减轻 GPU 工作负载：

线性注意力：取代 Diffusion Transformers（DiT）中的标准注意力，以更高效地处理高分辨率。
DC-AE：使用 32 倍的图像压缩率（相较传统的 8 倍），大幅降低潜在 token 数量。
仅解码器文本编码器：利用现代大语言模型，实现文本提示与生成图像之间更好的对齐。
专用视频模块：采用块因果线性注意力和因果 Mix-FFN 进行长视频生成，并使用 sCM 蒸馏实现一步生成（SANA‑Sprint）。
量化：支持 4 位和 8 位量化，以降低内存占用。

适用人群

本项目面向 AI 研究者、开发者和创作者，帮助他们在缺乏工业级算力资源的情况下实现高质量的图像和视频生成，以及构建实时流式视频编辑工具或用于 Embodied AI 的可控世界模型。

亮点

极致效率：在 H100 GPU 上，1024px 图像的生成时间可低至 0.1 秒。
高分辨率：支持最高 4K 分辨率的文本到图像生成。
多功能套件：包含一步生成（Sprint）、视频生成（SANA‑Video）、世界建模（SANA‑WM）和实时流式编辑（SANA‑Streaming）等专用模型。
广泛兼容：已集成 diffusers、ComfyUI 和 SGLang，提供高性能服务。

Sources

undefinedNVlabs/Sana