Stanford CS336 Lecture 15: Mid-Training and Post-Training (SFT and RLHF)

Post-Training: From Base Models to Assistants

Post-Training 是將強大的基礎模型（例如 GPT-3）轉變為實用的、能遵循指令的助理（例如 ChatGPT）的過程。雖然預訓練提供了廣泛的知識基礎——「原始湯」——Post-Training 則透過明確的資料收集與導向，提取出可靠性與細緻控制等具體行為。

SFT 是 Post-Training 的第一階段，模型在高品質的輸入‑輸出對上進行訓練。SFT 的主要挑戰不在演算法（標準的梯度下降），而在資料策劃。

資料策略已從大規模、程式化的資料集演變為高品質、類似人類互動的資料：

FLAN: 早期嘗試使用現有的 NLP 基準來建立多任務資料集。然而，這些資料往往結構不自然且包含幻覺，證明規模不如品質重要。
Self-Instruct & Distillation (e.g., Alpaca, Vicuna): 這些方法利用更強大的模型產生合成的指令遵循資料，能可靠地在基礎模型中誘發聊天式行為。
Human-Driven Efforts (e.g., Open Assistant): 透過眾包方式創建專家級的提示與回應，以匹配封閉源碼的表現。
Agentic SFT (e.g., Nemotron): 當前趨勢從簡單聊天轉向具代理行為，將工具呼叫與結構化待辦清單納入 SFT 資料。

Style vs. Capability: 使用者常偏好有項目符號或較長篇幅的回應，即使底層能力未提升。這會產生「長度駭客」的風險——互動信號上升卻沒有真正的智慧提升。
The Hallucination Trap: 在 SFT 中訓練模型學習「尾部知識」（模型尚未掌握的事實）會誘發幻覺。當模型被迫以特定格式（例如 "Reference: [Citation]"）輸出它不知道的事實時，模型可能學會僅模仿格式而捏造資訊。
Safety Tuning: 安全 SFT 需要在「違規率」（允許不良查詢）與「錯誤拒絕率」（拒絕無害查詢，如 "如何終止 Python 程式"）之間取得平衡。通常透過數千個針對性的拒絕範例完成。

現代訓練管線常將 SFT 合併到預訓練階段。於「衰減階段」（預訓練的最後階段）中，將高品質的聊天與 SFT 資料與一般網路資料混合。這使模型能在最接近部署的時點擴大指令微調，並強調高品質資料的比例。

RLHF 將目標從生成模型（擬合分佈）轉為獎勵最大化。之所以使用 RLHF，是因為人類往往較擅長對輸出進行評分，而非生成；在某些領域（如數學），驗證比生成更容易。

標註已從低成本的眾包轉向高成本的專家勞動。專業人士（醫生、律師）現在會獲得相當高的時薪，以提供高保真度的回饋。標註者的人口與意識形態構成直接影響模型最終的對齊程度與政治傾向。

PPO (Proximal Policy Optimization): 傳統方法。它較為複雜，需要獨立的獎勵模型與 on‑policy 抽樣，計算成本高。
DPO (Direct Preference Optimization): 更簡單的替代方案，省去獎勵模型與 on‑policy 抽樣。DPO 把 RLHF 視為分類問題，透過梯度步驟提升偏好回應的似然、降低被拒回應的似然。

SUMMARY:

本講座說明了從基礎語言模型到指令遵循助理的轉變過程，透過監督式微調（SFT）與人類回饋強化學習（RLHF）實現，並強調資料品質與策劃比演算法複雜度更為關鍵。

TITLE:

Stanford CS336 Lecture 15: Mid-Training and Post-Training (SFT and RLHF)