Stanford CME296 Lecture 7: Evaluation of Text-to-Image Generation Models

텍스트‑투‑이미지 생성 모델의 출력을 평가하는 것은 개발 라이프사이클에서 중요한 단계입니다. 품질을 정량화할 수 있는 신뢰할 만한 방법이 있어야 개선이 가능하기 때문입니다. 평가는 일반적으로 두 가지 주요 차원으로 나뉩니다: 미학(이미지가 물리적으로 타당하고 시각적으로 만족스러운가)와 프롬프트 충실도(이미지가 입력 텍스트에 명시된 객체, 스타일, 위치를 정확히 반영하는가).

Human-Based Evaluation

인간 평가 점수는 가장 섬세한 피드백을 제공하지만 잡음이 많고 비용이 높습니다. 강의에서는 세 가지 주요 인간 평가 방식을 소개합니다:

절대 척도 (1‑5): 사용자가 이미지를 1~5점 척도로 평가합니다. 세밀하지만 사람마다 척도 해석이 달라 잡음이 발생합니다.
이진 통과율: 사용자가 이미지를 "좋음" 또는 "나쁨"으로 판단합니다. 인간에게는 더 쉬우나 절대적인 품질 기준이 부족합니다.
쌍대 비교: 사용자가 두 이미지를 비교해 더 나은 쪽을 선택합니다. 상대적 비교가 절대 채점보다 직관적이어서 가장 잡음이 적은 방법입니다.

The Elo Rating System

모든 모델을 서로 모두 비교하는 데 드는 계산 및 인간 비용을 피하기 위해 Elo 레이팅 시스템을 사용합니다. 단순 승률 대신 Elo는 상대의 강도에 따라 모델의 레이팅을 조정합니다. 강한 상대를 이기면 레이팅이 크게 상승하고, 약한 상대를 이기면 상승 폭이 작습니다. 이를 통해 새로운 모델을 전체를 재평가하지 않고도 동적 리더보드에 통합할 수 있습니다.

Reference-Free Metrics

레퍼런스‑프리 메트릭은 하나의 "정답" 이미지와 비교하지 않고 생성된 이미지를 평가합니다. 하나의 프롬프트에 대해 여러 개의 유효한 이미지가 존재할 수 있기 때문입니다.

Fréchet Inception Distance (FID)

FID는 미학과 다양성을 정량화하는 업계 표준입니다. 생성 이미지 분포를 실제 이미지 분포와 잠재 공간(특히 Inception 네트워크 인코더)에서 비교합니다.

메커니즘: 두 가우시안 분포의 평균($\mu$)과 공분산($\Sigma$)을 이용해 Wasserstein 거리를 계산합니다.
해석: 낮은 FID 점수는 생성 분포가 실제 분포에 가깝다는 것을 의미합니다. 평균 차이는 스타일/품질 차이를, 공분산 차이는 다양성 부족(모드 붕괴)을 나타냅니다.
제한점: FID는 분포가 가우시안이라고 가정하는데, 실제로는 거의 성립하지 않으며 인간이 인지하는 품질을 잘 대변하지 못할 수 있습니다.

Prompt Adherence Metrics

CLIPScore: CLIP 모델을 사용해 입력 텍스트와 생성 이미지 임베딩 간 코사인 유사도를 측정합니다. 일반적인 의미론적 매칭에는 효과적이지만 미세한 공간적·관계적 디테일을 포착하는 데는 한계가 있습니다.
PickScore: 인간 선호 데이터를 기반으로 학습된 CLIP 기반 모델로, 미학과 충실도를 모두 반영하는 종합 점수를 제공합니다.

Reference-Based Metrics

레퍼런스‑베이스드 메트릭은 VAE 복원이나 이미지 편집 작업처럼 특정 목표 이미지가 존재할 때 사용됩니다.

MSE (Mean Squared Error): 픽셀 단위 거리이며, 정렬이 약간만 어긋나도 크게 영향을 받습니다.
PSNR (Peak Signal-to-Noise Ratio): MSE를 최대 픽셀값에 대해 정규화하고 로그를 적용해 인간이 느끼는 오류와 더 잘 맞춥니다.
SSIM (Structural Similarity Index): 픽셀을 넘어 밝기, 대비, 구조(피어슨 상관) 기반으로 로컬 패치를 비교합니다. MSE보다 강인하지만 큰 이동에는 여전히 민감합니다.
LPIPS (Learned Perceptual Image Patch Similarity): 사전 학습된 인코더(VGG, AlexNet 등)를 통과시킨 후 특징 맵 간 가중 거리를 계산합니다. 인간 지각 판단과 높은 일치를 목표로 합니다.

MLLM-as-a-Judge

멀티모달 대형 언어 모델(MLLM)은 단순 점수 대신 추론(근거)을 제공할 수 있어 점점 더 판사 역할을 맡고 있습니다.

Evolution of MLLM Evaluation

TIFA (Text-to-Image Faithfulness Evaluation): 프롬프트를 원자적인 예/아니오 질문으로 분해합니다(예: "곰인형이 있나요?"). MLLM이 각각 답하고, 최종 점수는 정답 비율입니다. 이를 통해 모델이 어디서 실패했는지 정확히 디버깅할 수 있습니다.
VQA Score: 평가를 시각 질문 응답(VQA) 과제로 정의합니다(예: "이 그림이 [프롬프트]를 보여주나요?"). 점수는 모델이 "yes" 토큰에 할당한 확률입니다.
VIEScore (Visual Instruction-guided Explainable Score): 개념 중심 접근법으로, 판사에게 상세 루브릭(예: "지각 품질" 가이드라인)을 제공하고 최종 점수를 내기 전에 근거를 제시하도록 합니다. 보통 JSON 형태로 출력해 파싱을 용이하게 합니다.

Best Practices for MLLM Judges

Chain-of-Thought: 모델이 점수 전에 근거를 출력하도록 요구해 정확성을 높입니다.
Determinism: 온도를 0으로 설정해 실행마다 일관된 결과를 보장합니다.
Bias Mitigation: 쌍대 설정에서 이미지 순서를 바꿔 위치 편향을 방지합니다.
Alignment: 인간이 채점한 샘플과 비교해 MLLM 판사의 레이팅을 보정하고 루브릭을 조정합니다.

Technical Benchmarks

이미지 생성의 특정 실패 모드를 목표로 하는 여러 벤치마크가 있습니다:

GenEval: 객체 개수, 색상 할당, 상대 위치 등을 객체 탐지 모델을 판사로 사용해 테스트합니다.
DPG Bench: 논리 그래프를 이용해 밀집 프롬프트를 평가합니다. 객체 존재 여부와 같은 전제 조건을 먼저 확인하고 속성을 검사합니다.
Long Text Bench: OCR 능력을 특별히 평가합니다—이미지 내에 읽을 수 있고 정확한 텍스트를 렌더링하는 능력.
Grounded Edits Bench: 이미지 편집 작업을 지각 품질과 의미 일관성 기준으로 평가합니다.

SUMMARY: 이 강의에서는 텍스트‑투‑이미지 모델을 평가하는 방법론을 소개합니다. 미학과 프롬프트 충실도를 구분하고, 전통적인 수학적 메트릭에서 MLLM‑as‑a‑Judge 프레임워크로의 전환 과정을 상세히 설명합니다.

TITLE: Stanford CME296 Lecture 7: Evaluation of Text-to-Image Generation Models

Stanford CME296 Lecture 7: Evaluation of Text-to-Image Generation Models

Stanford CME296 Lecture 7: Evaluation of Text-to-Image Generation Models

Human-Based Evaluation

The Elo Rating System

Reference-Free Metrics

Fréchet Inception Distance (FID)

Prompt Adherence Metrics

Reference-Based Metrics

MLLM-as-a-Judge

Evolution of MLLM Evaluation

Best Practices for MLLM Judges

Technical Benchmarks

Sources