Stanford CME296 Lecture 7: 評估文字轉圖像生成模型

評估文字轉圖像生成模型的輸出是開發生命週期中的關鍵步驟，因為改進需要可靠的方式來量化品質。評估通常分為兩個主要面向：美感（圖像在物理上是否合理且視覺上是否悅目）以及提示遵循度（圖像是否準確呈現輸入文字中指定的物件、風格與位置）。

基於人類的評估

人類評分提供最細緻的回饋，但噪聲大且成本高。課程指出了三種主要的人類評估設定：

為了避免在排行榜上每個模型都必須與其他模型兩兩比較的計算與人力成本，使用 Elo 評分系統。Elo 不是簡單的勝率，而是根據對手的實力調整模型的評分。若模型擊敗強大的對手，評分會顯著上升；擊敗較弱的對手則僅有微小提升。這使得排行榜能動態加入新模型，而無需重新評估整個集合。

無參考指標在不與單一「真實」圖像比較的情況下評估生成圖像，因為同一提示可能有多種有效的圖像。

FID 是衡量美感與多樣性的業界標準。它比較生成圖像分佈與真實圖像分佈在潛在空間（具體使用 Inception 網路編碼器）中的差異。

有參考指標在存在特定目標圖像時使用，例如 VAE 重建或圖像編輯任務。

MSE（均方誤差）： 像素層面的距離。對微小的對齊偏移極為敏感。
PSNR（峰值訊噪比）： 以最大可能像素值正規化 MSE，並取對數，使其更貼合人類對誤差的感知。
SSIM（結構相似性指數）： 超越像素，根據亮度、對比度與結構（使用 Pearson 相關）比較局部區塊。較 MSE 更具魯棒性，但對大幅位移仍敏感。
LPIPS（Learned Perceptual Image Patch Similarity）： 將圖像通過預訓練編碼器（如 VGG 或 AlexNet），計算特徵圖之間的加權距離。此指標旨在與人類感知判斷高度對齊。

多模態大型語言模型（MLLM）日益被用作評審，因為它們能提供推理（理由）而非僅僅一個標量分數。

TIFA（Text-to-Image Faithfulness Evaluation）： 將提示拆解為原子是/否問題（例如「有沒有泰迪熊？」）。MLLM 逐一回答，最終分數為正確答案的比例。此方式可精確定位模型失敗之處。
VQA Score： 將評估表述為視覺問答任務（例如「此圖是否顯示 [prompt]？」）。分數為模型對「yes」這個 token 所給予的機率。
VIEScore（Visual Instruction‑guided Explainable Score）： 採用概念中心化方法，評審會收到詳細的評分規範（例如「感知品質」指引），在給出最終分數前先提供理由，通常以 JSON 輸出以便解析。

多個基準針對圖像生成的特定失敗模式進行測試：

摘要本講座概述了評估文字轉圖像模型的方法，區分了美感與提示遵循度，並詳細說明了從傳統數學指標向 MLLM‑as‑a‑Judge 框架的轉變。

標題 Stanford CME296 Lecture 7: 評估文字轉圖像生成模型