斯坦福 CME296 扩散与大视觉模型 第 8 讲 摘要
Stanford CME296 Diffusion & Large Vision Models Lecture 8 Summary
Executive Summary
本讲座是 CME296 课程的收官内容,综合了图像生成的数学基础——从扩散与得分匹配到流匹配的演进——并将这些概念扩展到最先进(SOTA)模型、视频生成、图像编辑以及新兴的基于扩散的大语言模型(LLM)领域。核心要点是,尽管该领域正快速向流匹配和基于 Transformer 的架构(DiT)转变,噪声去除和分布映射的基本原理仍是现代生成式 AI 的基石。
The Evolution of Image Generation Paradigms
图像生成被视为从已知、简单的分布(通常是高斯噪声)出发,采样复杂、未知的数据分布,并学习一个将前者转化为后者的过程的挑战。
Diffusion and Score Matching
扩散模型通过定义一个将干净图像腐蚀为噪声的前向过程,并学习一个逆向过程来去除噪声来工作。这在数学上通过最大化数据分布的似然实现,常使用证据下界(ELBO)推导出可处理的 L2 回归损失。
得分匹配提供了另一种视角,关注“得分”——对数概率密度的梯度。得分充当指南针,指示朝向数据分布的方向。去噪得分匹配让模型基于噪声图像及其噪声水平估计该得分,最终收敛到与扩散相似的形式。
Flow Matching
流匹配是当前(截至 2026 年)的行业标准,将生成视为质量传输问题。它不再去除噪声,而是学习一个向量场(速度),将概率密度从初始分布移动到目标分布。
- 微观视角: 常微分方程(ODE)描述单个粒子的运动。
- 宏观视角: 连续性方程保证在转移过程中没有概率质量丢失。
- 校正流(Rectified Flow): 流匹配的一种变体,创建更直的分布间路径,减少推理时数值求解器的步数,从而加速采样。
Representations and Architectures
Latent Space and VAEs
在像素空间生成图像计算成本高且效率低,因为维度大且存在空间相关性。为了解决此问题,模型使用自编码器将图像压缩到低维 潜在空间。
变分自编码器(VAEs)用于正则化该潜在空间,确保其紧凑且结构良好(避免出现“尖峰”),从而使扩散或流模型更容易学习从噪声到数据的映射。然而,近期趋势(如 HiDream-01)表明,将 Transformer 扩展到数百亿参数(最高 200B)可能实现直接像素空间生成,进而消除 VAEs 带来的保真度损失。
Image Generation Architectures
- U-Net: 传统上因其下采样(全局理解)和上采样(细节重建)路径以及跳跃连接而被采用。
- Diffusion Transformer (DiT): 用 Transformer 架构取代 U‑Net,以实现远距离图像块之间的长程交互,这对全局一致性至关重要。
- Multi‑modal DiT: 将条件(如文本提示)直接注入联合注意力机制,而不是仅通过自适应层归一化调制嵌入。
Training and Evaluation
Training Pipeline
- Pre‑training: 最昂贵的阶段,需要大规模、高质量语料库来学习通用图像生成能力。
- Continued Training: 在特定领域(例如泰迪熊)上微调模型,以提升专门化生成效果。
- Tuning (DreamBooth/LoRA): 使用少量图像(5‑10 张)教会模型特定主体。低秩适配(LoRA)用于只调节部分权重,以保持效率。
- Distillation: 缩短推理步数,降低生产成本和延迟。
Evaluation Metrics
- Elo Rating: 一种成对比较系统,考虑对手模型的强度,提供比单纯胜率更稳健的排名。
- FID (Fréchet Inception Distance): 衡量生成图像分布与真实图像分布之间的距离。分数越低表示真实感越高,但它基于高斯分布假设,仅为代理指标。
- MLLM‑as‑a‑Judge: 使用多模态大语言模型提供自动评分,在人工评估前实现更快的迭代循环。
Extensions to Adjacent Fields
Video Generation
视频被视为图像的 3D 扩展(空间 + 时间)。关键挑战包括 时序一致性(确保对象不会突变)以及计算可行性。
- Causal VAEs: 使用非对称卷积确保帧的表示仅依赖当前帧及其之前的帧,从而支持流式编码/解码。
- Space‑Time Patches: 视频版 DiT 在 3D patch 上操作,利用自注意力保证空间和时间维度的连贯性。
- Anchor Frames: 通常将首帧视为特殊锚点,为视频序列提供稳定的起始点。
Image Editing
与其把编辑视为“从零”生成(往往难以保留原图结构),新研究聚焦 基于动作的编辑。这涉及使用视觉语言模型(VLM)将用户意图转化为一系列具体编辑动作(例如 “将亮度降低 50%”),随后由 Photoshop 等软件执行。
Diffusion for LLMs
为克服自回归(逐 token)生成的延迟,研究者将扩散应用于文本。
- 机制: 模型不再顺序生成,而是从一串 masked tokens(噪声)开始,逐步去遮盖以显现最终文本。
- 优势: 可实现最高 10 倍加速,尤其适用于 “fill‑in‑the‑middle” 任务,如在已有代码块之间生成代码。
- 挑战: 文本是离散的,与图像不同,需要专门的遮盖方案以及推理时基于置信度的再遮盖来纠错。
Future Challenges and Outlook
- Model Collapse: 未来模型若在大量 AI 生成数据上训练,可能陷入 “错误回声室”,偏离真实数据分布。
- Provenance and Trust: 使用 C2PA(元数据)和 SynthID(像素级水印)等标准区分 AI 生成内容与真实图像。
- Hardware Evolution: 超越矩阵乘法,向专为注意力机制优化的硬件演进。
- Reasoning in Vision: 从简单的图像投射迈向深度视觉推理,类似现代 LLM 的能力。