Stanford CME296 Lecture 7: Evaluation of Text-to-Image Generation Models

テキストから画像を生成するモデルの出力を評価することは、品質を定量化できる信頼できる手段が必要なため、開発ライフサイクルにおいて重要なステップです。評価は主に 美的評価（画像が物理的に妥当で視覚的に心地よいか）と プロンプト遵守度（画像が入力テキストで指定されたオブジェクト、スタイル、位置を正確に反映しているか）の二つの次元に分かれます。

Human-Based Evaluation

人間による評価は最も細やかなフィードバックを提供しますが、ノイズが大きくコストも高くなります。講義では主に次の三つの人間評価手法を紹介しています。

Absolute Scale (1-5): ユーザーが画像を 1〜5 のスケールで評価します。細かい評価が可能ですが、人によってスケールの解釈が異なるためノイズが多くなります。
Binary Pass Rate: ユーザーが画像を「良い」か「悪い」かで判断します。人間にとっては簡単ですが、絶対的な品質の基準が欠けています。
Pairwise Comparison: ユーザーが二つの画像を比較し、どちらが優れているかを選びます。相対比較は絶対評価より直感的で、最もノイズが少ない手法です。

The Elo Rating System

すべてのモデル同士をリーダーボード上で比較する計算コストと人間コストを回避するために、Elo レーティングシステムが使用されます。単純な勝率ではなく、対戦相手の強さに応じてモデルのレーティングが調整されます。強い相手に勝つとレーティングが大きく上がり、弱い相手に勝っても増加は僅かです。これにより、新しいモデルを全体を再評価せずにリーダーボードに組み込むことが可能になります。

Reference-Free Metrics

リファレンスフリーメトリックは、単一の「正解」画像と比較せずに生成画像を評価します。なぜなら、同じプロンプトに対して有効な画像は複数存在し得るからです。

Fréchet Inception Distance (FID)

FID は美的評価と多様性を定量化する業界標準です。生成画像の分布と実画像の分布を潜在空間（具体的には Inception ネットワークエンコーダ）で比較します。

Mechanism: 2 つのガウス分布（平均 $\mu$ と共分散 $\Sigma$）間のワッサースタイン距離を計算します。
Interpretation: FID スコアが低いほど、生成分布が実分布に近いことを示します。平均の差はスタイル／品質のギャップを、共分散の差は多様性の欠如（モード崩壊）を示唆します。
Limitations: FID は分布がガウスであることを前提としますが、実際にはほとんど当てはまりません。また、人間が知覚する品質の良さを正確に代替できないことがあります。

Prompt Adherence Metrics

CLIPScore: CLIP モデルを用いて、入力テキストと生成画像の埋め込み間の余弦類似度を測ります。一般的な意味的マッチングには有効ですが、微細な空間的・関係的ディテールには弱いです。
PickScore: 人間の好みデータで訓練された CLIP ベースのモデルで、美的評価とプロンプト遵守度を統合した総合スコアを提供します。

Reference-Based Metrics

参照画像が存在する場合（例：VAE の再構成や画像編集タスク）に使用される指標です。

MSE (Mean Squared Error): ピクセル単位の距離です。わずかな位置ずれに対しても高感度です。
PSNR (Peak Signal-to-Noise Ratio): MSE を最大ピクセル値で正規化し、対数を取ることで人間の誤差知覚に近づけます。
SSIM (Structural Similarity Index): ピクセルだけでなく、輝度・コントラスト・構造（ピアソン相関）に基づく局所パッチ比較を行います。MSE よりロバストですが、大きなシフトには依然敏感です。
LPIPS (Learned Perceptual Image Patch Similarity): 画像を事前学習済みエンコーダ（VGG や AlexNet など）に通し、特徴マップ間の重み付け距離を計算します。人間の知覚判断と高い相関を持つよう設計されています。

MLLM-as-a-Judge

マルチモーダル大規模言語モデル（MLLM）は、単なるスカラー値ではなく根拠（rationale）を提供できるため、審査員としての利用が増えています。

Evolution of MLLM Evaluation

TIFA (Text-to-Image Faithfulness Evaluation): プロンプトを原子的な yes/no 質問に分解します（例："テディベアはいますか？"）。MLLM が各質問に答え、正答率が最終スコアとなります。これにより、モデルがどこで失敗したかを正確にデバッグできます。
VQA Score: 評価を Visual Question Answering タスクとして定式化します（例："この図は [prompt] を示していますか？"）。スコアはモデルがトークン "yes" に割り当てた確率です。
VIEScore (Visual Instruction-guided Explainable Score): コンセプト中心のアプローチで、審査員に詳細なルーブリック（例："知覚品質" のガイドライン）を与え、最終スコアの前に根拠を出させます。多くの場合、JSON 形式で出力しやすくしています。

Best Practices for MLLM Judges

Chain-of-Thought: スコアを出す前に根拠を出力させることで精度を向上させます。
Determinism: temperature を 0 に設定し、実行ごとの結果の一貫性を保ちます。
Bias Mitigation: ペアワイズ設定では画像の順序を入れ替えて位置バイアスを防ぎます。
Alignment: 人間が採点したサンプルと比較し、ルーブリックを調整して MLLM 審査員を校正します。

Technical Benchmarks

画像生成の特定の失敗モードを対象としたベンチマークがいくつかあります。

GenEval: オブジェクト数、色属性、相対位置をオブジェクト検出モデルを審査員としてテストします。
DPG Bench: 論理グラフを用いて密なプロンプトを評価し、前提条件（例：オブジェクトが存在するか）を確認した上で属性をチェックします。
Long Text Bench: 主に OCR 能力、すなわち画像内に可読で正確なテキストを描画できるかを評価します。
Grounded Edits Bench: 画像編集タスクを知覚品質と意味的一貫性で評価します。

SUMMARY: この講義では、テキストから画像へのモデル評価手法を概観し、美的評価とプロンプト遵守度を区別しつつ、従来の数式的指標から MLLM‑as‑a‑Judge フレームワークへの移行について詳述しています。

TITLE: Stanford CME296 Lecture 7: Evaluation of Text-to-Image Generation Models

Stanford CME296 Lecture 7: Evaluation of Text-to-Image Generation Models

Stanford CME296 Lecture 7: Evaluation of Text-to-Image Generation Models

Human-Based Evaluation

The Elo Rating System

Reference-Free Metrics

Fréchet Inception Distance (FID)

Prompt Adherence Metrics

Reference-Based Metrics

MLLM-as-a-Judge

Evolution of MLLM Evaluation

Best Practices for MLLM Judges

Technical Benchmarks

Sources