Stanford CME296 Diffusion & Large Vision Models Lecture 8 Summary
Stanford CME296 Diffusion & Large Vision Models Lecture 8 Summary
Executive Summary
이 강의는 CME296 과정의 마무리로, 이미지 생성의 수학적 기반—특히 확산 및 스코어 매칭에서 흐름 매칭으로의 진화—을 종합하고 이를 최신(SOTA) 모델, 비디오 생성, 이미지 편집, 그리고 확산 기반 대형 언어 모델(LLM)이라는 새로운 분야에 확장한다. 핵심 요점은 분야가 흐름 매칭과 트랜스포머 기반 아키텍처(DiT) 쪽으로 빠르게 이동하고 있지만, 잡음 제거와 분포 매핑이라는 기본 원리는 현대 생성 AI의 초석으로 남아 있다는 것이다.
The Evolution of Image Generation Paradigms
이미지 생성은 알려진 단순 분포(보통 가우시안 잡음)에서 시작해 복잡하고 알 수 없는 데이터 분포를 샘플링하는 문제로 정의된다. 이를 위해 두 분포를 변환하는 과정을 학습한다.
Diffusion and Score Matching
Diffusion 모델은 깨끗한 이미지를 잡음으로 손상시키는 전방 과정을 정의하고, 그 잡음을 제거하는 역방 과정을 학습한다. 이는 데이터 분포의 가능도를 최대화함으로써 수학적으로 구현되며, 흔히 Evidence Lower Bound(ELBO)를 사용해 계산 가능한 L2 회귀 손실을 도출한다.
Score 매칭은 대안적인 관점을 제공한다. 여기서는 로그 확률 밀도의 기울기인 "스코어"에 초점을 맞춘다. 스코어는 데이터 분포를 향해 나아가는 방향을 알려주는 나침반 역할을 한다. Denoising Score Matching은 잡음이 섞인 이미지와 그 잡음 수준을 기반으로 스코어를 추정하게 하며, 최종적으로는 diffusion과 유사한 형태로 수렴한다.
Flow Matching
Flow Matching은 현재(2026년 기준) 산업 표준이며, 생성을 질량 수송 문제로 취급한다. 잡음을 제거하는 대신, 초기 분포에서 목표 분포로 확률 밀도를 이동시키는 벡터 필드(속도)를 학습한다.
- Microscopic View: 일반 미분 방정식(ODE)이 개별 입자의 움직임을 설명한다.
- Macroscopic View: 연속 방정식이 전이 과정에서 확률 질량이 손실되지 않음을 보장한다.
- Rectified Flow: 분포 간 경로를 더 직선적으로 만들어 추론 시 필요한 수치 해석 단계 수를 줄이고 샘플링 속도를 높이는 흐름 매칭 변형이다.
Representations and Architectures
Latent Space and VAEs
픽셀 공간에서 이미지를 생성하는 것은 차원 수와 공간적 상관관계 때문에 계산 비용이 크고 비효율적이다. 이를 해결하기 위해 모델은 자동 인코더를 사용해 이미지를 저차원 잠재 공간으로 압축한다.
Variational Autoencoders(VAE)는 이 잠재 공간을 정규화하여 컴팩트하고 구조화된 형태("스파이크" 방지)를 유지한다. 이는 diffusion 또는 flow 모델이 잡음에서 데이터로의 매핑을 배우기 쉽게 만든다. 그러나 최근 추세(예: HiDream-01)는 트랜스포머를 200B에 달하는 거대한 파라미터 수로 스케일링하면 직접 픽셀 공간에서 생성이 가능해져 VAE에 따른 충실도 손실을 없앨 수 있음을 시사한다.
Image Generation Architectures
- U-Net: 다운샘플링(전역 이해)과 업샘플링(세부 복원) 경로를 스킵 연결로 연결한 전통적인 구조.
- Diffusion Transformer (DiT): U-Net을 트랜스포머 아키텍처로 대체해 먼 이미지 패치 간 장거리 상호작용을 가능하게 하며, 이는 전역 일관성에 필수적이다.
- Multi-modal DiT: 조건(예: 텍스트 프롬프트)을 단순히 어댑티브 레이어 정규화로 임베딩을 조절하는 것이 아니라 공동 어텐션 메커니즘에 직접 통합한다.
Training and Evaluation
Training Pipeline
- Pre-training: 가장 비용이 많이 드는 단계로, 일반 이미지 생성을 배우기 위해 방대한 고품질 코퍼스가 필요하다.
- Continued Training: 특정 도메인(예: 테디 베어)에서 모델을 미세 조정해 특화된 생성 능력을 향상시킨다.
- Tuning (DreamBooth/LoRA): 소수의 이미지(5‑10장)만으로 특정 주제를 모델에 학습시킨다. Low‑Rank Adaptation(LoRA)은 효율성을 유지하면서 일부 가중치만 튜닝한다.
- Distillation: 추론 단계 수를 줄여 생산 비용과 지연 시간을 감소시킨다.
Evaluation Metrics
- Elo Rating: 상대 모델의 강점을 고려한 쌍별 비교 시스템으로, 단순 승률보다 더 견고한 순위를 제공한다.
- FID (Fréchet Inception Distance): 생성 이미지와 실제 이미지 분포 간 거리를 측정한다. 점수가 낮을수록 현실감이 높지만, 가우시안 분포 가정에 기반한 프록시 메트릭이다.
- MLLM-as-a-Judge: 다중모달 대형 언어 모델을 활용해 자동 평점을 제공, 인간 평가 전에 빠른 반복 루프를 가능하게 한다.
Extensions to Adjacent Fields
Video Generation
비디오는 이미지의 3D 확장(공간 + 시간)으로 간주된다. 주요 과제는 시간 일관성(객체가 갑자기 변하지 않도록)과 계산 효율성이다.
- Causal VAEs: 비대칭 컨볼루션을 사용해 현재 및 이전 프레임에만 의존하도록 하여 스트리밍 인코딩/디코딩을 가능하게 한다.
- Space-Time Patches: 비디오용 DiT 아키텍처는 3D 패치를 대상으로 하며, 자기 어텐션을 통해 공간·시간 차원 모두에서 일관성을 유지한다.
- Anchor Frames: 첫 프레임을 특별한 앵커로 취급해 비디오 시퀀스의 안정적인 시작점을 제공한다.
Image Editing
편집을 "처음부터" 생성하는 문제로 보는 대신, 원본 구조를 보존하기 어려운 기존 접근법을 넘어 액션 기반 편집에 초점을 맞춘다. 이는 VLM을 사용해 사용자의 의도를 구체적인 편집 액션(예: "밝기를 50% 감소") 시퀀스로 변환하고, 이를 Photoshop 등 소프트웨어가 실행하도록 한다.
Diffusion for LLMs
자동 회귀(토큰별) 생성의 지연을 극복하기 위해 확산을 텍스트에 적용한다.
- Mechanism: 순차 생성 대신, 모델은 마스크된 토큰(잡음) 시퀀스로 시작해 점진적으로 마스크를 해제해 최종 텍스트를 만든다.
- Benefits: 최대 10배 가속을 달성할 수 있으며, 특히 두 코드 블록 사이에 텍스트를 삽입해야 하는 "fill‑in‑the‑middle" 작업에 효과적이다.
- Challenges: 텍스트는 이산형이며 이미지와 달리 특수한 마스킹 스킴과 추론 시 오류를 교정하기 위한 신뢰도 기반 재마스킹이 필요하다.
Future Challenges and Outlook
- Model Collapse: AI‑생성 데이터만으로 학습된 미래 모델이 "실수의 메아리 방"에 빠져 실제 데이터 분포에서 멀어질 위험.
- Provenance and Trust: C2PA(메타데이터)와 SynthID(픽셀 수준 워터마크)와 같은 표준을 활용해 AI‑생성 콘텐츠와 실제 이미지를 구분.
- Hardware Evolution: 행렬 곱셈을 넘어 어텐션 메커니즘에 최적화된 하드웨어로 전환.
- Reasoning in Vision: 단순 이미지 투영을 넘어, 현대 LLM 수준의 깊은 시각적 추론으로 이동.
SUMMARY: 이미지 및 비디오 생성 패러다임에 대한 포괄적인 검토로, 확산·스코어 매칭에서 흐름 매칭으로의 전환을 다루고 이 기술들을 비디오, 이미지 편집, LLM에 적용하는 방식을 탐구한다.
TITLE: Stanford CME296 Diffusion & Large Vision Models Lecture 8 Summary