Stanford CS336 Lecture 15: Mid-Training and Post-Training (SFT and RLHF)

Post-Training: From Base Models to Assistants

Post-Training は、強力なベースモデル（例: GPT-3）を実用的な指示に従うアシスタント（例: ChatGPT）へと変換するプロセスです。事前学習が広範な知識ベース—いわゆる「原始スープ」—を提供するのに対し、Post‑Training は明示的なデータ収集とステアリングを通じて、信頼性や細かな制御といった具体的な振る舞いを抽出します。

Supervised Fine-Tuning (SFT)

SFT は Post‑Training の最初のフェーズで、高品質な入力‑出力ペアでモデルを学習させます。SFT の主な課題はアルゴリズム（標準的な勾配降下）ではなく、データのキュレーションにあります。

Evolution of SFT Data

データ戦略は、大規模なプログラム的データセットから高品質で人間らしい対話へと進化してきました。

FLAN: 初期の試みは既存の NLP ベンチマークを利用してマルチタスクデータセットを作成しました。しかし、構造が不自然で幻覚が多く、規模よりも品質が重要であることが示されました。
Self‑Instruct & Distillation (e.g., Alpaca, Vicuna): これらの手法は、より強力なモデルを用いて合成の指示従属性データを生成し、ベースモデルにチャット的振る舞いを確実に誘導します。
Human‑Driven Efforts (e.g., Open Assistant): クラウドソーシングで専門レベルのプロンプトと応答を作成し、クローズドソースの性能に匹敵させます。
Agentic SFT (e.g., Nemotron): 現在のトレンドは単なるチャットからエージェント的振る舞いへシフトし、ツール呼び出しや構造化された To‑Do リストを SFT データに組み込みます。

Key Pitfalls in SFT Data Collection

Style vs. Capability: ユーザーは箇条書きや長文を好む傾向がありますが、実際の能力が向上していなくても「長さハック」によりエンゲージメント指標が上がるリスクがあります。
The Hallucination Trap: SFT 中に「テールナレッジ」（モデルが既に知らない事実）を特定フォーマット（例: "Reference: [Citation]"）で出力させようとすると、モデルは情報を捏造してフォーマットを真似するようになります。
Safety Tuning: Safety SFT は「違反率」（悪質なクエリを許容する）と「偽拒否率」（無害なクエリを拒否する、例: "Python プロセスの終了方法"）のバランスを取ります。これは数千件のターゲット例で実現されることが多いです。

Mid-Training: Blurring the Lines

現代の学習パイプラインは SFT を事前学習フェーズに統合することが一般的です。事前学習の「デケイフェーズ」（終盤）では、高品質なチャット・SFT データと一般的なウェブデータが混合されます。これにより指示チューニングがスケールし、デプロイ直前の段階で高品質データの比重が高まります。

Reinforcement Learning from Human Feedback (RLHF)

RLHF は目的関数を生成モデル（分布のフィッティング）から報酬最大化へとシフトさせます。人間は出力を生成するよりも評価する方が得意であり、特に数学のように検証が生成よりも容易な領域で有用です。

The RLHF Pipeline

Sampling: SFT モデルがプロンプトに対して複数の候補応答を生成します。
Ranking: 人間の評価者が有用性、真実性、無害性などの基準でこれらの応答を順位付けします。
Reward Modeling: 人間の好みを予測する報酬モデルを学習させます。
Optimization: ポリシーを更新し報酬を最大化します。通常、KL ダイバージェンス項でベースモデルからの乖離を抑え、退化を防ぎます。

The Role of the Annotator

アノテーションは低コストのクラウドワークから高コストの専門家労働へと変化しました。医師や弁護士といった専門職が高額な時給で高忠実度のフィードバックを提供します。アノテーターの人口統計学的・イデオロギー的構成は、モデルの最終的なアラインメントや政治的傾向に直接影響します。

RLHF Algorithms: PPO vs. DPO

PPO (Proximal Policy Optimization): 従来の手法で、別個の報酬モデルとオンポリシーサンプリングが必要となり計算コストが高いです。
DPO (Direct Preference Optimization): 報酬モデルとオンポリシーサンプリングを排除したシンプルな代替手法です。DPO は RLHF を分類問題として扱い、好まれる応答の尤度を上げ、拒否された応答の尤度を下げる勾配ステップを取ります。

Challenges in RLHF

Over‑optimization: RLHF を過度に進めると「報酬ハッキング」につながり、実際の有用性よりも報酬モデルへの過適合が起こります。
Model Collapse: RLHF により出力の多様性が失われ、各入力に対して単一の高報酬点に分布が収束します。
Calibration: RLHF はしばしばモデルのキャリブレーションが取れず、回答に対する自信が正解確率を正確に反映しません。

SUMMARY: この講義は、ベース言語モデルから指示に従うアシスタントへと移行するプロセスを、Supervised Fine‑Tuning（SFT）と Reinforcement Learning from Human Feedback（RLHF）を通じて解説します。アルゴリズムの複雑さよりも、データの品質とキュレーションが重要であることを強調しています。

TITLE: Stanford CS336 Lecture 15: Mid-Training and Post-Training (SFT and RLHF)

Stanford CS336 Lecture 15: Mid-Training and Post-Training (SFT and RLHF)

Stanford CS336 Lecture 15: Mid-Training and Post-Training (SFT and RLHF)

Post-Training: From Base Models to Assistants

Supervised Fine-Tuning (SFT)

Evolution of SFT Data

Key Pitfalls in SFT Data Collection

Mid-Training: Blurring the Lines

Reinforcement Learning from Human Feedback (RLHF)

The RLHF Pipeline

The Role of the Annotator

RLHF Algorithms: PPO vs. DPO

Challenges in RLHF

Sources