Stanford CME296 Diffusion & Large Vision Models Lecture 8 Summary
Stanford CME296 Diffusion & Large Vision Models Lecture 8 Summary
Executive Summary
本講座作為 CME296 課程的總結,綜合了圖像生成的數學基礎——從擴散與分數匹配到流匹配的演變——並將這些概念擴展到最先進(SOTA)模型、影片生成、圖像編輯以及新興的基於擴散的大型語言模型(LLM)領域。核心要點是,雖然該領域正快速轉向流匹配與基於 Transformer 的架構(DiT),但噪聲去除與分佈映射的基本原理仍是現代生成式 AI 的基石。
The Evolution of Image Generation Paradigms
圖像生成被視為從一個已知、簡單的分佈(通常是高斯噪聲)開始,通過學習一個過程將其轉換為複雜、未知的資料分佈的抽樣挑戰。
Diffusion and Score Matching
擴散模型透過定義一個將乾淨圖像腐蝕成噪聲的前向過程,並學習一個逆向過程來去除噪聲。這在數學上是透過最大化資料分佈的似然度來實現,常使用證據下界(ELBO)推導出可處理的 L2 回歸損失。
分數匹配提供了另一種視角,聚焦於「分數」——即對數機率密度的梯度。分數如同指南針,指示朝向資料分佈的方向。去噪分數匹配允許模型根據噪聲圖像及其噪聲水平估計此分數,最終收斂到與擴散相似的形式。
Flow Matching
流匹配是目前(截至 2026 年)的產業標準,將生成視為質量傳輸問題。它不再去除噪聲,而是學習一個向量場(速度),將機率密度從初始分佈搬運到目標分佈。
- 微觀觀點: 常微分方程(ODE)描述單個粒子的運動。
- 宏觀觀點: 連續方程確保在轉換過程中不會失去機率質量。
- 校正流(Rectified Flow): 流匹配的一種變體,產生更直的分佈間路徑,減少推理時所需的數值求解步數,從而加速抽樣。
Representations and Architectures
Latent Space and VAEs
在像素空間生成圖像計算成本高且效率低,原因在於高維度與空間相關性。為了解決此問題,模型使用自編碼器將圖像壓縮到較低維度的 潛在空間。
變分自編碼器(VAEs)用於正則化此潛在空間,確保其緊湊且結構良好(避免「尖峰」),使擴散或流模型更容易學習從噪聲到資料的映射。然而,近期趨勢(如 HiDream-01)顯示,將 Transformer 擴展至極大參數量(最高可達 200B)可能允許直接在像素空間生成,從而消除 VAEs 帶來的保真度損失。
Image Generation Architectures
- U-Net: 傳統上因其下採樣(全局理解)與上採樣(細節重建)路徑,以及跳躍連接而被廣泛使用。
- Diffusion Transformer (DiT): 用 Transformer 架構取代 U‑Net,以實現遠距圖像塊之間的長程交互,這對全局一致性至關重要。
- Multi-modal DiT: 將條件(如文字提示)直接整合到聯合注意機制中,而非僅透過自適應層正則化(adaptive layer norm)調節嵌入。
Training and Evaluation
Training Pipeline
- Pre‑training: 最昂貴的階段,需要龐大且高品質的語料庫以學習通用圖像生成能力。
- Continued Training: 在特定領域(例如泰迪熊)上微調模型,以提升專屬生成效果。
- Tuning (DreamBooth/LoRA): 使用少量圖像(5‑10 張)教模型特定主題。低秩適應(LoRA)用於調整部分權重,以保持效率。
- Distillation: 縮短推理步數,降低生產成本與延遲。
Evaluation Metrics
- Elo Rating: 一種成對比較系統,考慮對手模型的實力,提供比單純勝率更穩健的排名。
- FID (Fréchet Inception Distance): 衡量生成圖像分佈與真實圖像分佈之間的距離。分數越低表示真實感越高,儘管它基於高斯分佈假設的代理指標。
- MLLM-as-a-Judge: 使用多模態大型語言模型自動評分,實現在人類評估前的快速迭代。
Extensions to Adjacent Fields
Video Generation
影片被視為圖像的 3D 延伸(空間 + 時間)。主要挑戰包括 時間一致性(確保物體不會自行變化)以及計算可行性。
- Causal VAEs: 使用非對稱卷積確保某一幀的表示僅依賴當前與之前的幀,從而支援串流編碼/解碼。
- Space‑Time Patches: 用於影片的 DiT 架構在 3D patch 上操作,透過自注意力確保空間與時間維度的協調一致。
- Anchor Frames: 首幀常被視為特殊的錨點,提供影片序列的穩定起始點。
Image Editing
相較於將編輯視為「從頭」生成(往往無法保留原圖結構),新研究聚焦於 基於動作的編輯。這涉及使用視覺語言模型(VLM)將使用者意圖轉換為具體的編輯動作序列(例如「將亮度降低 50%」),再由 Photoshop 等軟體執行。
Diffusion for LLMs
為克服自回歸(逐 token)生成的延遲,研究者將擴散應用於文字。
- Mechanism: 模型不再逐序生成,而是從一串 masked tokens(噪聲)開始,逐步解除遮蔽以顯示最終文本。
- Benefits: 可實現最高 10 倍的加速,特別適用於「填充中間」任務,如程式碼補全,需要在兩段現有程式碼之間生成文字。
- Challenges: 文字是離散的,與圖像不同。這需要特殊的遮蔽方案以及在推理時基於信心的再遮蔽以修正錯誤。
Future Challenges and Outlook
- Model Collapse: 未來模型若在 AI 生成資料上訓練,可能陷入「錯誤回音室」,偏離真實資料分佈。
- Provenance and Trust: 使用 C2PA(元資料)與 SynthID(像素級水印)等標準,區分 AI 生成內容與真實圖像。
- Hardware Evolution: 從矩陣乘法轉向專為注意機制優化的硬體。
- Reasoning in Vision: 從簡單的圖像投射走向深度視覺推理,類似現代 LLM 的能力。
SUMMARY:
對圖像與影片生成範式的全面回顧,涵蓋從擴散與分數匹配到流匹配的轉變,並探討這些技術在影片、圖像編輯與 LLM 中的應用。
TITLE:
Stanford CME296 Diffusion & Large Vision Models Lecture 8 Summary