Stanford CME296 Diffusion & Large Vision Models Lecture 8 Summary

Executive Summary

本講座作為 CME296 課程的總結，綜合了圖像生成的數學基礎——從擴散與分數匹配到流匹配的演變——並將這些概念擴展到最先進（SOTA）模型、影片生成、圖像編輯以及新興的基於擴散的大型語言模型（LLM）領域。核心要點是，雖然該領域正快速轉向流匹配與基於 Transformer 的架構（DiT），但噪聲去除與分佈映射的基本原理仍是現代生成式 AI 的基石。

The Evolution of Image Generation Paradigms

圖像生成被視為從一個已知、簡單的分佈（通常是高斯噪聲）開始，通過學習一個過程將其轉換為複雜、未知的資料分佈的抽樣挑戰。

Diffusion and Score Matching

擴散模型透過定義一個將乾淨圖像腐蝕成噪聲的前向過程，並學習一個逆向過程來去除噪聲。這在數學上是透過最大化資料分佈的似然度來實現，常使用證據下界（ELBO）推導出可處理的 L2 回歸損失。

分數匹配提供了另一種視角，聚焦於「分數」——即對數機率密度的梯度。分數如同指南針，指示朝向資料分佈的方向。去噪分數匹配允許模型根據噪聲圖像及其噪聲水平估計此分數，最終收斂到與擴散相似的形式。

Flow Matching

流匹配是目前（截至 2026 年）的產業標準，將生成視為質量傳輸問題。它不再去除噪聲，而是學習一個向量場（速度），將機率密度從初始分佈搬運到目標分佈。

微觀觀點： 常微分方程（ODE）描述單個粒子的運動。
宏觀觀點： 連續方程確保在轉換過程中不會失去機率質量。
校正流（Rectified Flow）： 流匹配的一種變體，產生更直的分佈間路徑，減少推理時所需的數值求解步數，從而加速抽樣。

Representations and Architectures

Latent Space and VAEs

在像素空間生成圖像計算成本高且效率低，原因在於高維度與空間相關性。為了解決此問題，模型使用自編碼器將圖像壓縮到較低維度的 潛在空間。

變分自編碼器（VAEs）用於正則化此潛在空間，確保其緊湊且結構良好（避免「尖峰」），使擴散或流模型更容易學習從噪聲到資料的映射。然而，近期趨勢（如 HiDream-01）顯示，將 Transformer 擴展至極大參數量（最高可達 200B）可能允許直接在像素空間生成，從而消除 VAEs 帶來的保真度損失。

Image Generation Architectures

U-Net： 傳統上因其下採樣（全局理解）與上採樣（細節重建）路徑，以及跳躍連接而被廣泛使用。
Diffusion Transformer (DiT)： 用 Transformer 架構取代 U‑Net，以實現遠距圖像塊之間的長程交互，這對全局一致性至關重要。
Multi-modal DiT： 將條件（如文字提示）直接整合到聯合注意機制中，而非僅透過自適應層正則化（adaptive layer norm）調節嵌入。

Training and Evaluation

Training Pipeline

Pre‑training： 最昂貴的階段，需要龐大且高品質的語料庫以學習通用圖像生成能力。
Continued Training： 在特定領域（例如泰迪熊）上微調模型，以提升專屬生成效果。
Tuning (DreamBooth/LoRA)： 使用少量圖像（5‑10 張）教模型特定主題。低秩適應（LoRA）用於調整部分權重，以保持效率。
Distillation： 縮短推理步數，降低生產成本與延遲。

Evaluation Metrics

Elo Rating： 一種成對比較系統，考慮對手模型的實力，提供比單純勝率更穩健的排名。
FID (Fréchet Inception Distance)： 衡量生成圖像分佈與真實圖像分佈之間的距離。分數越低表示真實感越高，儘管它基於高斯分佈假設的代理指標。
MLLM-as-a-Judge： 使用多模態大型語言模型自動評分，實現在人類評估前的快速迭代。

Extensions to Adjacent Fields

Video Generation

影片被視為圖像的 3D 延伸（空間 + 時間）。主要挑戰包括 時間一致性（確保物體不會自行變化）以及計算可行性。

Causal VAEs： 使用非對稱卷積確保某一幀的表示僅依賴當前與之前的幀，從而支援串流編碼/解碼。
Space‑Time Patches： 用於影片的 DiT 架構在 3D patch 上操作，透過自注意力確保空間與時間維度的協調一致。
Anchor Frames： 首幀常被視為特殊的錨點，提供影片序列的穩定起始點。

Image Editing

相較於將編輯視為「從頭」生成（往往無法保留原圖結構），新研究聚焦於 基於動作的編輯。這涉及使用視覺語言模型（VLM）將使用者意圖轉換為具體的編輯動作序列（例如「將亮度降低 50%」），再由 Photoshop 等軟體執行。

Diffusion for LLMs

為克服自回歸（逐 token）生成的延遲，研究者將擴散應用於文字。

Mechanism： 模型不再逐序生成，而是從一串 masked tokens（噪聲）開始，逐步解除遮蔽以顯示最終文本。
Benefits： 可實現最高 10 倍的加速，特別適用於「填充中間」任務，如程式碼補全，需要在兩段現有程式碼之間生成文字。
Challenges： 文字是離散的，與圖像不同。這需要特殊的遮蔽方案以及在推理時基於信心的再遮蔽以修正錯誤。

Future Challenges and Outlook

Model Collapse： 未來模型若在 AI 生成資料上訓練，可能陷入「錯誤回音室」，偏離真實資料分佈。
Provenance and Trust： 使用 C2PA（元資料）與 SynthID（像素級水印）等標準，區分 AI 生成內容與真實圖像。
Hardware Evolution： 從矩陣乘法轉向專為注意機制優化的硬體。
Reasoning in Vision： 從簡單的圖像投射走向深度視覺推理，類似現代 LLM 的能力。

SUMMARY:

對圖像與影片生成範式的全面回顧，涵蓋從擴散與分數匹配到流匹配的轉變，並探討這些技術在影片、圖像編輯與 LLM 中的應用。

TITLE:

Stanford CME296 Diffusion & Large Vision Models Lecture 8 Summary

Stanford CME296 Diffusion & Large Vision Models Lecture 8 Summary

Stanford CME296 Diffusion & Large Vision Models Lecture 8 Summary

Executive Summary

The Evolution of Image Generation Paradigms

Diffusion and Score Matching

Flow Matching

Representations and Architectures

Latent Space and VAEs

Image Generation Architectures

Training and Evaluation

Training Pipeline

Evaluation Metrics

Extensions to Adjacent Fields

Video Generation

Image Editing

Diffusion for LLMs

Future Challenges and Outlook

Sources