Sana:一個以效率為導向的高解析度影像與影片生成框架,支援 4K 影像與即時串流
Sana:一個以效率為導向的高解析度影像與影片生成框架,支援 4K 影像與即時串流
它解決了什麼問題
SANA 的設計目的是讓高解析度影像與影片生成變得顯著更有效率。它針對產生 4K 影像或長篇影片時常見的高計算成本與記憶體需求進行優化,使這些工作能在消費級硬體(包括 VRAM 少於 8GB 的筆記型電腦 GPU)上執行。
它如何運作
SANA 採用了多項關鍵的架構優化,以減少 GPU 的工作負載:
- Linear Attention:取代 Diffusion Transformers(DiT)中的標準注意力機制,以更有效率地處理高解析度。
- DC‑AE:使用 32 倍的影像壓縮率(相較於傳統的 8 倍),大幅減少潛在 token 的數量。
- Decoder‑only Text Encoder:利用現代大型語言模型(LLM)提升文字提示與生成影像之間的對齊度。
- 專門的影片模組:採用 Block Causal Linear Attention 與 Causal Mix‑FFN 進行長影片生成,並使用 sCM 蒸餾實現一步生成(SANA‑Sprint)。
- 量化:支援 4 位元與 8 位元量化,以降低記憶體使用量。
目標使用者
此專案適合 AI 研究者、開發者與創作者,當他們需要高品質的影像與影片生成卻缺乏工業級運算資源,同時也適用於構建即時串流影片編輯工具或為 Embodied AI 開發可控世界模型的人員。
重點特色
- 極致效率:在 H100 GPU 上可於 0.1 秒內生成 1024px 影像。
- 高解析度:支援最高 4K 解析度的文字轉影像生成。
- 多功能套件:包含一步生成(Sprint)、影片生成(SANA‑Video)、世界建模(SANA‑WM)以及即時串流編輯(SANA‑Streaming)等專門模型。
- 廣泛相容性:已整合
diffusers、ComfyUI 與 SGLang,提供高效能服務。
摘要: 一個以效率為導向的高解析度影像與影片生成框架,能在消費級 GPU 上實現 4K 影像創作與即時影片編輯。
標題: Sana:一個以效率為導向的高解析度影像與影片生成框架,支援 4K 影像與即時串流
Sources
- undefinedNVlabs/Sana