Sana：一個以效率為導向的高解析度影像與影片生成框架，支援 4K 影像與即時串流

Sana：一個以效率為導向的高解析度影像與影片生成框架，支援 4K 影像與即時串流

它解決了什麼問題

SANA 的設計目的是讓高解析度影像與影片生成變得顯著更有效率。它針對產生 4K 影像或長篇影片時常見的高計算成本與記憶體需求進行優化，使這些工作能在消費級硬體（包括 VRAM 少於 8GB 的筆記型電腦 GPU）上執行。

它如何運作

SANA 採用了多項關鍵的架構優化，以減少 GPU 的工作負載：

Linear Attention：取代 Diffusion Transformers（DiT）中的標準注意力機制，以更有效率地處理高解析度。
DC‑AE：使用 32 倍的影像壓縮率（相較於傳統的 8 倍），大幅減少潛在 token 的數量。
Decoder‑only Text Encoder：利用現代大型語言模型（LLM）提升文字提示與生成影像之間的對齊度。
專門的影片模組：採用 Block Causal Linear Attention 與 Causal Mix‑FFN 進行長影片生成，並使用 sCM 蒸餾實現一步生成（SANA‑Sprint）。
量化：支援 4 位元與 8 位元量化，以降低記憶體使用量。

目標使用者

此專案適合 AI 研究者、開發者與創作者，當他們需要高品質的影像與影片生成卻缺乏工業級運算資源，同時也適用於構建即時串流影片編輯工具或為 Embodied AI 開發可控世界模型的人員。

重點特色

極致效率：在 H100 GPU 上可於 0.1 秒內生成 1024px 影像。
高解析度：支援最高 4K 解析度的文字轉影像生成。
多功能套件：包含一步生成（Sprint）、影片生成（SANA‑Video）、世界建模（SANA‑WM）以及即時串流編輯（SANA‑Streaming）等專門模型。
廣泛相容性：已整合 diffusers、ComfyUI 與 SGLang，提供高效能服務。

摘要：一個以效率為導向的高解析度影像與影片生成框架，能在消費級 GPU 上實現 4K 影像創作與即時影片編輯。

標題： Sana：一個以效率為導向的高解析度影像與影片生成框架，支援 4K 影像與即時串流

Sources

undefinedNVlabs/Sana