下一個 AI 訓練範式:超越 RLVR 並邁向持續學習

下一個 AI 訓練範式:超越 RLVR 並邁向持續學習

核心賭注:RLVR 及其局限性

AI 實驗室目前正押注於在數千個多樣化的強化學習 (RL) 環境中,透過數百萬個可驗證任務來訓練模型,藉此創造出一個通用的問題解決代理程式。其假設是,擴展這種方法——來自可驗證獎勵的強化學習 (RLVR)—將能克服數據效率低下和缺乏持續學習的問題,就像擴展算力解決了許多自然語言處理問題一樣。

然而,這種範式依賴於一個假設:上下文學習 (ICL) 最終可以取代權重更新的需求。支持者認為,如果上下文窗口變得實際上是無限的,模型就可以簡單地將部署期間獲得的所有經驗儲存在其中,而不需要將這些知識蒸餾回其權重中。

「可磨練性」瓶頸

單憑可驗證性不足以實現 AI 的快速進步;一個領域也必須是「可磨練的」(grindable)。一個可磨練的領域允許從同一個起點開始,針對確定性、可重複播放的模擬器進行數千次並行展開 (rollouts)。

  • 成功案例: 編碼和數學具有高度的可磨練性,因為代理程式可以在具有特定軟體儲存庫 (repositories) 的相同容器中進行測試。
  • 失敗案例: 電腦使用 (例如,導航 Amazon 或 Slack) 的進展較慢,因為它並非輕而易舉地可磨練。在真實網站上運行數千個機器人會導致帳號被封禁,且需要耗費大量人力來克隆應用程式以建立模擬器。

這種區別揭示了一個關鍵差距:許多基本的人類技能——例如建立企業、贏得訴訟或政治策略——無法在數據中心中進行模擬。這些環境是無重置且非平穩的,這意味著模型必須從稀缺的真實世界互動中學習,而外部迴圈的驗證可能需要數月或數年。

持續學習的必要性

為了在複雜的真實世界領域達到人類水平的熟練度,AI 必須超越 RLVR 並實施持續學習——即根據部署經驗來更新權重的能力。

純上下文學習的失敗

雖然上下文學習具有樣本效率,但它在記憶 (KV cache) 方面的擴展性很差。人類的學習並非透過完美地忠實地回憶每一個觀察結果來運作;相反,它涉及將資訊壓縮成權重中的直覺和宏觀知識。僅依賴上下文窗口會創造出一種「學者型」的能力,能回憶數據,但實際上會削弱理解抽象概念和隱喻的能力。

樣本效率問題

透過梯度下降更新權重是出了名的樣本效率低下。大多數目前的在線學習模型 (例如 Cursor Tab) 僅僅是因為它們在數百萬名用戶身上學習相同的目標而有效。真正的持續學習需要模型從單次會話中學習關於特定組織或問題的特定、獨特資訊——這些數據對於傳統的有監督微調 (SFT) 來說太過稀缺。

建議的權重更新解決方案

為了彌補稀缺的真實世界數據與權重更新之間的差距,提出了兩條主要的技術路徑:

在策略自我蒸餾 (OPSD)

OPSD 鼓勵基礎模型去匹配「教師」模型的預測——即同一個模型,但累積了長會話的完整上下文。

  • 優於 RLVR 的優點: OPSD 不需要外部迴圈的可驗證獎勵;它只需要模型能在其上下文窗口內學習正確的行為。
  • 優於 SFT 的優點: 不同於 SFT 只是天真地預測所有觀察到的 token,OPSD (如同 RL) 是稀疏的。它只提取達成與教師模型相同結果所需的知識,從而防止模型覆寫既存的知識或記憶無關的緊湊紀錄。

「夢境」 (Test-Time Training)

一種更具投機性的方法是「夢境」,即 AI 建立其內部的現實模擬來演練技能並嘗試替代策略。

  • 先例: EfficientZero 證明了模型可以在 Atari 遊戲中表現得比人類更好,因為它在心智中為每一個真實世界的步驟進行了數十次模擬遊戲。
  • 應用: 如果 LLM 可以投入算力來編寫自己的 RL 環境並針對其進行訓練,這將會創造出第四個擴展維度 (除了預訓練、RL 和推理時算力)。

2027-2028 年的願景

向下一代範式的轉型預計將遵循特定的序列:

  1. RLVR 作為基礎: RLVR 創造出一個足夠勝任的代理程式,使其能夠在面對陌生問題時進行迭代並處理障礙。
  2. 廣泛部署: 這個勝任的代理程式被部署到真實世界中從事實際工作。
  3. 持續學習迴圈: 使用 OPSD 或夢境等技術,模型將這些真實世界的會話經驗蒸餾餾回其權重中。

在這樣的未來,AI 進步的主要驅動力將從發布前的訓練轉向透過廣泛的經濟部署所累積的經驗,模型將透過與每位用戶的實時互動中學習變得更加聰明。

Sources