Stanford CME296 Diffusion & Large Vision Models Lecture 8 Summary

Executive Summary

この講義は CME296 コースの総括として、画像生成の数学的基礎—拡散とスコアマッチングからフローマッチングへの進化—を統合し、最先端（SOTA）モデル、動画生成、画像編集、そして拡散ベースの大規模言語モデル（LLM）という新興分野へと概念を拡張します。主要なポイントは、分野がフローマッチングとトランスフォーマーベースのアーキテクチャ（DiT）へ急速にシフトしている一方で、ノイズ除去と分布マッピングという基本原理は依然として現代の生成 AI の土台である、ということです。

The Evolution of Image Generation Paradigms

画像生成は、既知の単純な分布（通常はガウスノイズ）から開始し、複雑で未知のデータ分布からサンプリングする課題として位置付けられます。これを実現するために、ある変換プロセスを学習します。

Diffusion and Score Matching

拡散モデルは、クリーンな画像をノイズへと汚染する前方プロセスを定義し、そのノイズを除去する逆プロセスを学習します。これはデータ分布の尤度を最大化することで数学的に実現され、しばしば Evidence Lower Bound（ELBO）を用いて扱いやすい L2 回帰損失を導出します。

スコアマッチングは別の視点を提供し、"スコア"（対数確率密度の勾配）に焦点を当てます。スコアはデータ分布への方向を示すコンパスのような役割を果たします。デノイジングスコアマッチングにより、モデルはノイズ画像とそのノイズレベルに基づいてこのスコアを推定し、最終的に拡散と同様の形式に収束します。

Flow Matching

フローマッチングは（2026 年時点で）業界標準となっている手法で、生成を質量輸送問題として扱います。ノイズ除去ではなく、初期分布から目標分布へ確率密度を移動させるベクトル場（速度）を学習します。

Microscopic View: 常微分方程式（ODE）が個々の粒子の動きを記述します。
Macroscopic View: 連続方程式が遷移中に確率質量が失われないことを保証します。
Rectified Flow: 分布間の経路を直線化し、推論時の数値ソルバーのステップ数を削減してサンプリングを高速化するフローマッチングの変種です。

Representations and Architectures

Latent Space and VAEs

ピクセル空間で画像を生成するのは次元が高く空間的相関も強いため、計算コストが大きく非効率です。そこでモデルはオートエンコーダを用いて画像を低次元の 潜在空間 に圧縮します。

変分オートエンコーダ（VAEs）はこの潜在空間を正則化し、コンパクトで構造化された（"スパイク" がない）表現にします。これにより拡散またはフローモデルがノイズからデータへのマッピングを学びやすくなります。ただし、最近の傾向（例: HiDream-01）では、トランスフォーマーを 200B までスケールさせることで、直接ピクセル空間生成が可能になるとされ、VAEs に伴う忠実度損失が不要になる可能性があります。

Image Generation Architectures

U-Net: ダウンサンプリング（全体把握）とアップサンプリング（詳細復元）パスを持ち、スキップ接続で結合する従来の構造です。
Diffusion Transformer (DiT): U-Net をトランスフォーマーに置き換え、遠く離れた画像パッチ間の長距離相互作用を可能にし、全体的な一貫性を確保します。
Multi-modal DiT: 条件（テキストプロンプト等）を単に埋め込みを適応層正規化で変調するのではなく、共同注意機構に直接組み込んで統合します。

Training and Evaluation

Training Pipeline

Pre-training: 最もコストがかかる段階で、大規模で高品質なコーパスを用いて汎用的な画像生成能力を学習します。
Continued Training: 特定ドメイン（例: テディベア）に対してファインチューニングし、専門的な生成性能を向上させます。
Tuning (DreamBooth/LoRA): 少数画像（5‑10 枚）で特定の対象を学習させます。Low‑Rank Adaptation（LoRA）を用いて一部の重みだけを調整し、効率を保ちます。
Distillation: 推論ステップ数を削減し、プロダクションコストとレイテンシを低減します。

Evaluation Metrics

Elo Rating: 対戦相手モデルの強さも考慮したペアワイズ比較システムで、単純な勝率より堅牢なランキングを提供します。
FID (Fréchet Inception Distance): 生成画像分布と実画像分布の距離を測定します。スコアが低いほどリアリティが高いとされますが、ガウス分布を仮定した近似指標です。
MLLM-as-a-Judge: マルチモーダル大規模言語モデルを用いて自動評価を行い、人手評価前の高速イテレーションを可能にします。

Extensions to Adjacent Fields

Video Generation

動画は画像の 3 次元拡張（空間＋時間）として扱われます。主な課題は 時間的一貫性（オブジェクトが突然変化しないこと）と計算効率です。

Causal VAEs: 非対称畳み込みを用いて、フレームの表現が現在および過去フレームのみに依存するようにし、ストリーミングエンコード/デコードを実現します。
Space-Time Patches: 動画用 DiT は 3 次元パッチ上で動作し、自己注意で空間・時間両方の整合性を保ちます。
Anchor Frames: 最初のフレームを特別なアンカーフレームとして扱い、動画シーケンスの安定した開始点を提供します。

Image Editing

編集を "ゼロからの生成" とみなすと元画像の構造が失われがちです。最新の研究は アクションベース編集 に焦点を当て、ユーザーの意図を VLM が具体的な編集アクション（例: "明るさを 50% 下げる"）に変換し、Photoshop などのソフトで実行します。

Diffusion for LLMs

自己回帰（トークン単位）生成の遅延を克服するため、拡散をテキストに適用する研究が進んでいます。

Mechanism: 逐次生成ではなく、マスクトークン（ノイズ）で始め、段階的にアンマスクして最終テキストを露出させます。
Benefits: 最大 10 倍の高速化が期待でき、特にコードの "fill‑in‑the‑middle" タスクなど、既存ブロック間にテキストを生成する場面で有効です。
Challenges: テキストは離散的で画像とは異なるため、特殊なマスキング方式と推論時の信頼度に基づく再マスクが必要です。

Future Challenges and Outlook

Model Collapse: 将来のモデルが AI 生成データで学習し続けると、"誤りのエコーチェンバー" に陥り、真のデータ分布から逸脱するリスクがあります。
Provenance and Trust: C2PA（メタデータ）や SynthID（ピクセルレベル透かし）といった標準を用いて、AI 生成コンテンツと実画像を区別します。
Hardware Evolution: 行列乗算から注意機構に特化したハードウェアへシフトが進んでいます。
Reasoning in Vision: 単なる画像投影から、現代 LLM と同等の深い視覚的推論へと拡大していく必要があります。

SUMMARY: 画像および動画生成パラダイムの包括的レビュー。拡散とスコアマッチングからフローマッチングへの移行を概説し、これらの手法を動画、画像編集、LLM への応用についても検討しています。

TITLE: Stanford CME296 Diffusion & Large Vision Models Lecture 8 Summary

Stanford CME296 Diffusion & Large Vision Models Lecture 8 Summary

Stanford CME296 Diffusion & Large Vision Models Lecture 8 Summary

Executive Summary

The Evolution of Image Generation Paradigms

Diffusion and Score Matching

Flow Matching

Representations and Architectures

Latent Space and VAEs

Image Generation Architectures

Training and Evaluation

Training Pipeline

Evaluation Metrics

Extensions to Adjacent Fields

Video Generation

Image Editing

Diffusion for LLMs

Future Challenges and Outlook

Sources