Stanford CME296 Lecture 7: 評估文字轉圖像生成模型
Stanford CME296 Lecture 7: 評估文字轉圖像生成模型
評估文字轉圖像生成模型的輸出是開發生命週期中的關鍵步驟,因為改進需要可靠的方式來量化品質。評估通常分為兩個主要面向:美感(圖像在物理上是否合理且視覺上是否悅目)以及提示遵循度(圖像是否準確呈現輸入文字中指定的物件、風格與位置)。
基於人類的評估
人類評分提供最細緻的回饋,但噪聲大且成本高。課程指出了三種主要的人類評估設定:
- 絕對尺度(1-5): 使用者在一個尺度上為圖像打分。此方式細緻但噪聲大,因為不同的人對尺度的解讀不同。
- 二元通過率: 使用者判斷圖像是「好」還是「壞」。此方式對人類較為簡單,但缺乏絕對品質的參考點。
- 成對比較: 使用者比較兩張圖像並選出較佳者。此方法噪聲最小,因為相對比較比絕對評分更直觀。
Elo 評分系統
為了避免在排行榜上每個模型都必須與其他模型兩兩比較的計算與人力成本,使用 Elo 評分系統。Elo 不是簡單的勝率,而是根據對手的實力調整模型的評分。若模型擊敗強大的對手,評分會顯著上升;擊敗較弱的對手則僅有微小提升。這使得排行榜能動態加入新模型,而無需重新評估整個集合。
無參考指標
無參考指標在不與單一「真實」圖像比較的情況下評估生成圖像,因為同一提示可能有多種有效的圖像。
Fréchet Inception Distance(FID)
FID 是衡量美感與多樣性的業界標準。它比較生成圖像分佈與真實圖像分佈在潛在空間(具體使用 Inception 網路編碼器)中的差異。
- 機制: 計算兩個高斯分佈之間的 Wasserstein 距離,該分佈由均值 ($\mu$) 與協方差 ($\Sigma$) 表徵。
- 解讀: 較低的 FID 分數表示生成分佈更接近真實分佈。均值差異暗示風格/品質差距,協方差差異則暗示多樣性不足(模式崩潰)。
- 限制: FID 假設分佈為高斯,實務上很少成立,且它可能是對人類感知品質的較差代理指標。
提示遵循度指標
- CLIPScore: 使用 CLIP 模型測量輸入文字與生成圖像嵌入之間的餘弦相似度。對一般語意匹配有效,但在細微空間或關係細節上表現較差。
- PickScore: 基於 CLIP 的模型,專門在人體偏好資料上訓練,以提供結合美感與遵循度的整體分數。
有參考指標
有參考指標在存在特定目標圖像時使用,例如 VAE 重建或圖像編輯任務。
- MSE(均方誤差): 像素層面的距離。對微小的對齊偏移極為敏感。
- PSNR(峰值訊噪比): 以最大可能像素值正規化 MSE,並取對數,使其更貼合人類對誤差的感知。
- SSIM(結構相似性指數): 超越像素,根據亮度、對比度與結構(使用 Pearson 相關)比較局部區塊。較 MSE 更具魯棒性,但對大幅位移仍敏感。
- LPIPS(Learned Perceptual Image Patch Similarity): 將圖像通過預訓練編碼器(如 VGG 或 AlexNet),計算特徵圖之間的加權距離。此指標旨在與人類感知判斷高度對齊。
MLLM‑as‑a‑Judge
多模態大型語言模型(MLLM)日益被用作評審,因為它們能提供推理(理由)而非僅僅一個標量分數。
MLLM 評估的演變
- TIFA(Text-to-Image Faithfulness Evaluation): 將提示拆解為原子是/否問題(例如「有沒有泰迪熊?」)。MLLM 逐一回答,最終分數為正確答案的比例。此方式可精確定位模型失敗之處。
- VQA Score: 將評估表述為視覺問答任務(例如「此圖是否顯示 [prompt]?」)。分數為模型對「yes」這個 token 所給予的機率。
- VIEScore(Visual Instruction‑guided Explainable Score): 採用概念中心化方法,評審會收到詳細的評分規範(例如「感知品質」指引),在給出最終分數前先提供理由,通常以 JSON 輸出以便解析。
MLLM 評審的最佳實踐
- Chain‑of‑Thought(思考鏈): 要求模型在給出分數 之前 輸出其推理理由,以提升準確性。
- 確定性: 將 temperature 設為 0,確保不同執行間結果一致。
- 偏見緩解: 在成對比較設定中,交換圖像順序以防止位置偏見。
- 對齊: 透過將 MLLM 評審的評分與人工評分樣本比較,校正評分規範以達到對齊。
技術基準
多個基準針對圖像生成的特定失敗模式進行測試:
- GenEval: 使用物件偵測模型作為評審,測試物件計數、顏色屬性與相對位置。
- DPG Bench: 以邏輯圖評估密集提示,先檢查前置條件(例如「物件是否存在」),再檢查其屬性。
- Long Text Bench: 專門評估 OCR 能力——模型在圖像中呈現可讀且正確文字的能力。
- Grounded Edits Bench: 依據感知品質與語意一致性評估圖像編輯任務。
摘要 本講座概述了評估文字轉圖像模型的方法,區分了美感與提示遵循度,並詳細說明了從傳統數學指標向 MLLM‑as‑a‑Judge 框架的轉變。
標題 Stanford CME296 Lecture 7: 評估文字轉圖像生成模型