Stanford CME296 Diffusion & Large Vision Models Lecture 8 Summary

Executive Summary

本讲座是 CME296 课程的收官内容，综合了图像生成的数学基础——从扩散与得分匹配到流匹配的演进——并将这些概念扩展到最先进（SOTA）模型、视频生成、图像编辑以及新兴的基于扩散的大语言模型（LLM）领域。核心要点是，尽管该领域正快速向流匹配和基于 Transformer 的架构（DiT）转变，噪声去除和分布映射的基本原理仍是现代生成式 AI 的基石。

The Evolution of Image Generation Paradigms

图像生成被视为从已知、简单的分布（通常是高斯噪声）出发，采样复杂、未知的数据分布，并学习一个将前者转化为后者的过程的挑战。

Diffusion and Score Matching

扩散模型通过定义一个将干净图像腐蚀为噪声的前向过程，并学习一个逆向过程来去除噪声来工作。这在数学上通过最大化数据分布的似然实现，常使用证据下界（ELBO）推导出可处理的 L2 回归损失。

得分匹配提供了另一种视角，关注“得分”——对数概率密度的梯度。得分充当指南针，指示朝向数据分布的方向。去噪得分匹配让模型基于噪声图像及其噪声水平估计该得分，最终收敛到与扩散相似的形式。

Flow Matching

流匹配是当前（截至 2026 年）的行业标准，将生成视为质量传输问题。它不再去除噪声，而是学习一个向量场（速度），将概率密度从初始分布移动到目标分布。

微观视角： 常微分方程（ODE）描述单个粒子的运动。
宏观视角： 连续性方程保证在转移过程中没有概率质量丢失。
校正流（Rectified Flow）： 流匹配的一种变体，创建更直的分布间路径，减少推理时数值求解器的步数，从而加速采样。

Representations and Architectures

Latent Space and VAEs

在像素空间生成图像计算成本高且效率低，因为维度大且存在空间相关性。为了解决此问题，模型使用自编码器将图像压缩到低维 潜在空间。

变分自编码器（VAEs）用于正则化该潜在空间，确保其紧凑且结构良好（避免出现“尖峰”），从而使扩散或流模型更容易学习从噪声到数据的映射。然而，近期趋势（如 HiDream-01）表明，将 Transformer 扩展到数百亿参数（最高 200B）可能实现直接像素空间生成，进而消除 VAEs 带来的保真度损失。

Image Generation Architectures

U-Net： 传统上因其下采样（全局理解）和上采样（细节重建）路径以及跳跃连接而被采用。
Diffusion Transformer (DiT)： 用 Transformer 架构取代 U‑Net，以实现远距离图像块之间的长程交互，这对全局一致性至关重要。
Multi‑modal DiT： 将条件（如文本提示）直接注入联合注意力机制，而不是仅通过自适应层归一化调制嵌入。

Training and Evaluation

Training Pipeline

Pre‑training： 最昂贵的阶段，需要大规模、高质量语料库来学习通用图像生成能力。
Continued Training： 在特定领域（例如泰迪熊）上微调模型，以提升专门化生成效果。
Tuning (DreamBooth/LoRA)： 使用少量图像（5‑10 张）教会模型特定主体。低秩适配（LoRA）用于只调节部分权重，以保持效率。
Distillation： 缩短推理步数，降低生产成本和延迟。

Evaluation Metrics

Elo Rating： 一种成对比较系统，考虑对手模型的强度，提供比单纯胜率更稳健的排名。
FID (Fréchet Inception Distance)： 衡量生成图像分布与真实图像分布之间的距离。分数越低表示真实感越高，但它基于高斯分布假设，仅为代理指标。
MLLM‑as‑a‑Judge： 使用多模态大语言模型提供自动评分，在人工评估前实现更快的迭代循环。

Extensions to Adjacent Fields

Video Generation

视频被视为图像的 3D 扩展（空间 + 时间）。关键挑战包括 时序一致性（确保对象不会突变）以及计算可行性。

Causal VAEs： 使用非对称卷积确保帧的表示仅依赖当前帧及其之前的帧，从而支持流式编码/解码。
Space‑Time Patches： 视频版 DiT 在 3D patch 上操作，利用自注意力保证空间和时间维度的连贯性。
Anchor Frames： 通常将首帧视为特殊锚点，为视频序列提供稳定的起始点。

Image Editing

与其把编辑视为“从零”生成（往往难以保留原图结构），新研究聚焦 基于动作的编辑。这涉及使用视觉语言模型（VLM）将用户意图转化为一系列具体编辑动作（例如 “将亮度降低 50%”），随后由 Photoshop 等软件执行。

Diffusion for LLMs

为克服自回归（逐 token）生成的延迟，研究者将扩散应用于文本。

机制： 模型不再顺序生成，而是从一串 masked tokens（噪声）开始，逐步去遮盖以显现最终文本。
优势： 可实现最高 10 倍加速，尤其适用于 “fill‑in‑the‑middle” 任务，如在已有代码块之间生成代码。
挑战： 文本是离散的，与图像不同，需要专门的遮盖方案以及推理时基于置信度的再遮盖来纠错。

Future Challenges and Outlook

Model Collapse： 未来模型若在大量 AI 生成数据上训练，可能陷入 “错误回声室”，偏离真实数据分布。
Provenance and Trust： 使用 C2PA（元数据）和 SynthID（像素级水印）等标准区分 AI 生成内容与真实图像。
Hardware Evolution： 超越矩阵乘法，向专为注意力机制优化的硬件演进。
Reasoning in Vision： 从简单的图像投射迈向深度视觉推理，类似现代 LLM 的能力。

斯坦福 CME296 扩散与大视觉模型第 8 讲摘要

Stanford CME296 Diffusion & Large Vision Models Lecture 8 Summary

Executive Summary

The Evolution of Image Generation Paradigms

Diffusion and Score Matching

Flow Matching

Representations and Architectures

Latent Space and VAEs

Image Generation Architectures

Training and Evaluation

Training Pipeline

Evaluation Metrics

Extensions to Adjacent Fields

Video Generation

Image Editing

Diffusion for LLMs

Future Challenges and Outlook

Sources

斯坦福 CME296 扩散与大视觉模型 第 8 讲 摘要

Stanford CME296 Diffusion & Large Vision Models Lecture 8 Summary

Executive Summary

The Evolution of Image Generation Paradigms

Diffusion and Score Matching

Flow Matching

Representations and Architectures

Latent Space and VAEs

Image Generation Architectures

Training and Evaluation

Training Pipeline

Evaluation Metrics

Extensions to Adjacent Fields

Video Generation

Image Editing

Diffusion for LLMs

Future Challenges and Outlook

Sources

斯坦福 CME296 扩散与大视觉模型第 8 讲摘要