Stanford CS336 Lecture 15: Mid-Training and Post-Training (SFT and RLHF)

Post-Training: From Base Models to Assistants

后训练是将强大的基础模型（如 GPT-3）转化为有用的、遵循指令的助手（如 ChatGPT）的过程。预训练提供了广阔的知识库——“原始汤”，而后训练通过显式的数据收集和引导，提取出可靠性和细粒度控制等具体行为。

SFT 是后训练的第一阶段，模型在高质量的输入‑输出对上进行训练。SFT 的主要挑战不在算法——它是标准的梯度下降——而在数据策划。

数据策略已经从大规模、程序化的数据集演进到高质量、类人交互：

FLAN: 早期尝试使用现有的 NLP 基准创建多任务数据集。然而，这些数据往往结构不自然且包含幻觉，证明规模并不如质量重要。
Self-Instruct & Distillation (e.g., Alpaca, Vicuna): 这些方法利用更强的模型生成合成的指令遵循数据，能够可靠地在基础模型中诱导出聊天式行为。
Human-Driven Efforts (e.g., Open Assistant): 众包创建专家级提示和回复，以匹配闭源模型的表现。
Agentic SFT (e.g., Nemotron): 当前趋势从简单聊天转向具备代理行为，SFT 数据中加入工具调用和结构化待办列表。

Style vs. Capability: 用户常偏好带有项目符号或更长篇幅的回复，即使底层能力并未提升。这会导致“长度作弊”，即交互信号提升但实际智能没有增长。
The Hallucination Trap: 在 SFT 中对模型进行“尾部知识”（模型尚未掌握的事实）训练，可能诱发幻觉。当模型被迫以特定格式（如 “Reference: [Citation]”）输出它不知道的事实时，它可能学会通过捏造信息来模仿该格式。
Safety Tuning: 安全 SFT 需要在“违规率”（允许有害查询）和“误拒率”（拒绝无害查询，如 “如何杀死 Python 进程”）之间取得平衡。通常通过几千条针对性的拒绝示例实现。

现代训练流水线常将 SFT 融入预训练阶段。在“衰减阶段”（预训练末期），高质量的聊天和 SFT 数据会与通用网页数据混合。这使模型能够在最接近部署的时点进行指令微调，并强调更高质量的数据。

RLHF 将目标从生成模型（拟合分布）转向奖励最大化。之所以使用它，是因为人类往往更擅长对输出进行评分而非生成，在某些领域（如数学）验证比生成更容易。

标注工作已从低成本的众包转向高成本的专家劳动。专业人士（医生、律师等）现在会获得可观的时薪，以提供高保真度的反馈。标注者的人口统计和意识形态构成直接影响模型的最终对齐和政治倾向。

PPO (Proximal Policy Optimization): 传统方法。它较为复杂，需要单独的奖励模型和 on‑policy 采样，计算成本高。
DPO (Direct Preference Optimization): 更简洁的替代方案，省去了奖励模型和 on‑policy 采样。DPO 将 RLHF 视为分类问题，通过梯度步提升首选回复的概率、降低被拒回复的概率。

SUMMARY:

本讲解说明了通过监督微调（SFT）和人类反馈强化学习（RLHF）将基础语言模型转变为指令遵循助手的过程，强调数据质量和策划比算法复杂度更为关键。

TITLE:

Stanford CS336 Lecture 15: Mid-Training and Post-Training (SFT and RLHF)