Sana: 4K 이미지와 실시간 스트리밍을 지원하는 고해상도 이미지·비디오 생성 효율 지향 프레임워크
Sana: 4K 이미지와 실시간 스트리밍을 지원하는 고해상도 이미지·비디오 생성 효율 지향 프레임워크
해결하고자 하는 문제
SANA는 고해상도 이미지와 비디오 생성을 훨씬 더 효율적으로 만들기 위해 설계되었습니다. 4K 이미지나 장시간 비디오를 생성할 때 일반적으로 발생하는 높은 연산 비용과 메모리 요구 사항을 해결하여, 이러한 작업을 소비자 수준 하드웨어(예: 8GB 미만 VRAM을 가진 노트북 GPU)에서도 실행할 수 있게 합니다.
작동 원리
SANA는 GPU 작업량을 줄이기 위해 여러 핵심 아키텍처 최적화를 적용합니다:
- Linear Attention: Diffusion Transformers (DiT)의 표준 어텐션을 대체해 고해상도를 보다 효율적으로 처리합니다.
- DC‑AE: 기존 8배 압축에 비해 32배 이미지 압축 비율을 사용해 잠재 토큰 수를 크게 감소시킵니다.
- Decoder‑only Text Encoder: 최신 LLM을 활용해 텍스트 프롬프트와 생성 이미지 간 정렬을 개선합니다.
- Specialized Video Modules: 긴 비디오 생성을 위해 Block Causal Linear Attention과 Causal Mix‑FFN을 사용하고, 한 단계 생성(sCM distillation)을 위한 SANA‑Sprint를 제공합니다.
- Quantization: 4비트 및 8비트 양자화를 지원해 메모리 사용량을 낮춥니다.
대상 사용자
이 프로젝트는 고품질 이미지·비디오 생성이 필요하지만 산업 규모의 컴퓨팅 자원이 부족한 AI 연구자, 개발자, 크리에이터를 위한 것입니다. 또한 실시간 스트리밍 비디오 편집 도구나 Embodied AI를 위한 제어 가능한 월드 모델을 구축하는 사람들에게도 적합합니다.
주요 특징
- 극한 효율성: H100 GPU에서 1024px 이미지를 0.1초 만에 생성합니다.
- 고해상도: 텍스트‑투‑이미지 생성이 4K 해상도까지 지원됩니다.
- 다목적 스위트: 한 단계 생성(Sprint), 비디오 생성(SANA‑Video), 월드 모델링(SANA‑WM), 실시간 스트리밍 편집(SANA‑Streaming)을 위한 특화 모델을 포함합니다.
- 넓은 호환성:
diffusers, ComfyUI, SGLang와 통합되어 고성능 서빙이 가능합니다.
Sources
- undefinedNVlabs/Sana