下一个 AI 训练范式:超越 RLVR 并迈向持续学习

下一个 AI 训练范式:超越 RLVR 并迈向持续学习

核心赌注:RLVR 及其局限性

AI 实验室目前正在赌注于在数千个多样化的强化学习 (RL) 环境中,通过数百万个可验证任务来训练模型,从而创建一个通用的问题解决智能体。该假设是,扩展这种方法——基于可验证奖励的强化学习 (RLVR)—将克服数据效率低下和缺乏持续学习的问题,类似于计算量扩展解决了许多自然语言处理问题一样。

然而,这种范式依赖于一个假设,即上下文学习 (ICL) 最终可以取代权重更新的需求。支持者认为,如果上下文窗口变得实际上是无限的,模型就可以简单地存储部署期间获得的所有经验,而无需将这些知识蒸馏回其权重中。

"Grindability"(可磨练性)瓶颈

仅凭可验证性不足以实现 AI 的快速进步;一个领域还必须是 "grindable"(可磨练的)。一个可磨练的领域允许从同一个起点开始,针对确定性的、可重复的模拟器进行数千次并行展开 (rollouts)。

  • 成功案例: 编程和数学具有高度的可磨练性,因为智能体可以在带有特定软件仓库的相同容器中进行测试。
  • 失败案例: 使用计算机(例如,在 Amazon 或 Slack 上进行导航)的进展较为缓慢,因为它不是显而易见的可磨练的。在实时网站上运行数千个机器人会导致账号被封禁,并且需要耗费大量人力进行应用程序的克隆以创建模拟器。

这种区别揭示了一个关键差距:许多基本的人类技能——例如建立业务、赢得诉讼或政治策略——无法在数据中心中进行模拟。这些环境是无重置且非平稳的,这意味着模型必须从稀缺的、现实世界的交互中学习,而外部循环验证可能需要数月或数年。

持续学习的必要性

为了在复杂的、现实世界的领域中达到人类水平的熟练度,AI 必须超越 RLVR 并实现持续学习——即根据部署经验更新权重的能力。

纯上下文学习的失败

虽然上下文学习在样本效率方面很高,但它在内存 (KV cache) 方面的扩展性很差。人类的学习并不通过以完美的保真度回忆每一个观察结果来运作;相反,它涉及将信息压缩成权重中的直觉和宏观知识。仅仅依赖上下文窗口会创造一种 "savant-type"(学者型)的能力,即回忆数据的能力,但这实际上会削弱理解抽象和隐喻的能力。

样本效率问题

通过梯度下降更新权重是出了名的样本效率低下。大多数当前的在线学习模型(如 Cursor Tab)之所以能够工作,是因为它们在数百万用户身上学习相同的目标。真正的持续学习需要模型能够从单次会话中学习关于特定组织或问题的特定、独特的信息——这些数据对于传统的监督微调 (SFT) 来说太稀缺了。

提出的权重更新解决方案

为了弥补稀缺的现实世界数据与权重更新之间的差距,提出了两条主要的技术路径:

On-Policy Self-Distillation (OPSD)

OPSD 鼓励基础模型去匹配 "教师" 模型的预测——即同一个模型,但带有累积了长会话的完整上下文。

  • 相对于 RLVR 的优势: OPSD 不需要外部循环的可验证奖励;它只需要模型能够在其上下文窗口内学习正确的行为。
  • 相对于 SFT 的优势: 与天真地预测所有观察到的 token,不同,OPSD(类似于 RL)是稀疏的。它只提取实现与教师模型相同结果所需的知识,从而防止模型覆盖现有知识或记忆无关的转录文本。

"Dreaming"(测试时训练)

一种更具推测性的方法是 "dreaming"(做梦),即 AI 构建其自己的内部现实模拟来演练技能并尝试替代策略。

"Precedent"(先例): EfficientZero 证明了模型可以在 Atari 游戏中表现得比人类更好,因为它在现实世界的每一步中,都在脑海中进行了数十次模拟游戏。

  • 应用: 如果 LLM 可以投入计算量来编写自己的 RL 环境并针对它们进行训练,这将创造第四个扩展维度(除了预训练、RL 和推理时计算量)。

2027-2028 愿景

向下一个范式的过渡预计将遵循特定的序列:

  1. RLVR 作为基础: RLVR 创建一个足够胜任的智能体,使其能够迭代并处理陌生问题中的障碍。
  2. 广泛部署: 这个胜任的智能体被部署到现实世界中参与实际工作。
  3. 持续学习循环: 使用 OPSD 或 dreaming 等技术,模型将这些现实世界会话中的经验从这些现实世界会话中蒸馏馏回其权重中。

在这种未来,AI 改进的主要驱动力将从发布前的训练转向通过广泛的经济部署所积累的经验,其中模型通过实时地从与每个用户的每一次交互中学习变得越来越聪明。

Sources