Sana: 4K画像とリアルタイムストリーミングをサポートする、高解像度画像およびビデオ生成のための効率重視型フレームワーク

Sana: 4K画像とリアルタイムストリーミングをサポートする、高解像度画像およびビデオ生成のための効率重視型フレームワーク

何を解決するか

SANAは、高解像度な画像およびビデオ生成を大幅に効率化するように設計されています。4K画像や長尺ビデオの生成に伴う、通常高い計算コストとメモリ要件に対処し、これらのタスクをコンシューマー向けハードウェア（8GB未満のVRAMを搭載したノートPCのGPUを含む）で実行できるようにします。

仕組み

SANAは、GPUの負荷を軽減するために、いくつかの主要なアーキテクチャの最適化を採用しています：

Linear Attention: Diffusion Transformers (DiT) における標準的なattentionを置き換え、高解像度をより効率的に処理します。
DC-AE: 従来の8倍と比較して32倍の画像圧縮率を使用し、潜在的なトークン数を劇的に削減します。
Decoder-only Text Encoder: テキストプロンプトと生成された画像との間の整合性を高めるために、最新のLLMを利用します。
Specialized Video Modules: 長尺ビデオ生成には Block Causal Linear Attention と Causal Mix-FFN を使用し、1ステップ生成（SANA-Sprint）には sCM distillation を使用します。
Quantization: メモリ使用量を抑えるために、4-bit および 8-bit quantization をサポートしています。

対象ユーザー

このプロジェクトは、高品質な画像およびビデオ生成を必要としながらも、産業規模の計算リソースが不足しているAI研究者、開発者、クリエイター、およびリアルタイムストリーミングビデオ編集ツールや、Embodied AI 用の制御可能なワールドモデルを構築している人々を対象としています。

ハイライト

Extreme Efficiency: H100 GPU上で、わずか0.1秒で1024pxの画像を生成します。
High Resolution: 最大4K解像度のtext-to-image生成をサポートしています。
Versatile Suite: 1ステップ生成 (Sprint)、ビデオ生成 (SANA-Video)、ワールドモデリング (SANA-WM)、およびリアルタイムストリーミング編集 (SANA-Streaming) 用の特化型モデルが含まれています。
Broad Compatibility: 高性能なサービングのために、diffusers、ComfyUI、および SGLang と統合されています。

Sources

undefinedNVlabs/Sana