次世代のAIトレーニングパラダイム：RLVRを超えて継続学習へ

コアとなる賭け：RLVRとその限界

AI研究所は現在、数千の多様な強化学習（RL）環境にわたる数百万の検証可能なタスクでモデルをトレーニングすることで、汎用的な問題解決エージェントが生まれると賭けています。その仮説は、このアプローチ（Reinforcement Learning from Verifiable Rewards: RLVR）をスケールさせることが、計算量のスケールが自然言語処理の多くの問題を解決したのと同様に、データの非効率性と継続学習の欠如という欠陥を克服するというものです。

しかし、このパラダイムは、インコンテキスト学習（ICL）が最終的に重みの更新の必要性を代替できるという仮定に基づいています。支持者たちは、コンテキストウィンドウが実質的に無限になれば、モデルは展開セッション中に得られたすべての経験を、その知識を重みに蒸留することなく、単に保存できると主張しています。

「グラインダビリティ（Grindability）」のボトルネック

検証可能性だけでは、急速なAIの進歩には不十分です。ドメインは「グラインダブル（grindable）」である必要があります。グラインダブルなドメインとは、同じ地点から開始して、決定論的で再現可能なシミュレーターに対して数千の並列ロールアウトが可能であることを意味します。

成功例: コーディングと数学は、エージェントが特定のソフトウェアリポジトリを備えた同一のコンテナ内でテストできるため、非常にグラインダブルです。
失敗例: コンピュータの使用（例：AmazonやSlackの操作）は、容易にグラインダブルではないため、進展が遅くなっています。ライブウェブサイト上で数千のボットを走らせることは、アカウントの停止を招き、シミュレーターを作成するためにアプリケーションの複製に多大な労力を要します。

この区別は決定的なギャップを明らかにしています。ビジネスの構築、裁判での勝利、あるいは政治戦略といった、多くの不可欠な人間的スキルは、データセンターでシミュレートすることができません。これらの環境はリセットが不可能で非定常であり、つまり、モデルは、アウターループの検証に数ヶ月または数年かかる可能性のある、希少で現実世界の相互作用から学ばなければならないことを意味します。

継続学習の必要性

複雑で現実世界のドメインにおいて人間レベルの習熟度に達するためには、AIはRLVRを超えて、継続学習（展開経験に基づいて重みを更新する能力）を実装する必要があります。

純粋なインコンテキスト学習の失敗

インコンテキスト学習はサンプル効率は高いものの、メモリ（KV cache）の観点からはスケールが低いです。人間の学習は、すべての観察を完璧な忠実度で思い出すことによって機能するのではなく、代わりに、情報を直感や大局的な知識として重みの中に圧縮することを含みます。コンテキストウィンドウだけに頼ることは、データを思い出す「サヴァン症候群タイプ」の能力を生み出しますが、それは実際には抽象化や比喩を理解する能力を損なう可能性があります。

サンプル効率の問題

勾配降下法による重みの更新は、サンプル効率が低いことで知られています。現在のオンライン学習モデル（Cursor Tabなど）の多くは、数百万人のユーザーにわたって同じ目的を学習しているからこそ機能しています。真の継続学習には、モデルが単一のセッションから特定の組織や問題に関する具体的でユニークな情報を学習することが求められます。これは、従来の教師あり微調整（SFT）には少なすぎるデータ量です。

重みの更新のための提案された解決策

希少な現実世界のデータと重みの更新の間のギャップを埋めるために、two primary technical paths（二つの主要な技術的経路）が提案されています。

On-Policy Self-Distillation (OPSD)

OPSDは、ベースモデルが「教師」モデル（同じモデルですが、蓄積された長いセッションのフルコンテキストを持つもの）の予測に一致するように促します。

RLVRに対する利点: OPSDはアウターループの検証可能な報酬を必要としません。モデルがコンテキストウィンドウ内で正しい挙動をう学べることを必要とするだけです。
SFTに対する利点: すべての観察されたトークンを素朴に予測するSFTとは異なり、OPSD（RLのように）はスパースです。教師と同じ結果を達成するために必要な知識のみを抽出するため、既存の知識を上書きしたり、無関係なトランスクリプトを丸暗記するのを防ぎます。

「夢を見る」（Test-Time Training）

より投機的なアプローチは「夢を見る」ことであり、AIが現実の内部シミュレーションを構築して、スキルを練習し、代替戦略を試行することです。

前例: EfficientZeroは、モデルが現実世界の1ステップに対して、頭の中で数十のシミュレートされたゲームをプレイすることで、Atariゲームにおいて人間を凌駕することができることを示しました。
適用: もしLLMが、自身のRL環境を書き、それに対してトレーニングを行うために計算資源を費やすことができれば、これは（事前学習、RL、および推論時計算量とともに）第4のスケール軸となるでしょう。

2027-2028年のビジョン

次世代パラダイムへの移行は、特定のシーケンスに従うことが期待されています。

RLVRを基盤として: RLVRは、未知の問題に対して反復作業を行い、障害に対処できる能力を持つエージェントを作成します。
広範な展開: この有能な能力を持つエージェントは、実際の業務に従事するために現実世界に展開されます。
継続学習ループ: OPSDや「夢を見る」といった技術を用いて、モデルはこれらの現実世界のセッションから得られた経験を、重みに蒸留するようになります。

この未来において、AIの改善の主な推進力は、リリース前のトレーニングから、広範な経済的展開を通じて蓄積された経験へとシフトします。そこでは、モデルはすべてのユーザーとのリアルタイムの相互作用から学習することで、より賢くなっていきます。

次世代のAIトレーニングパラダイム：RLVRを超えて継続学習へ

次世代のAIトレーニングパラダイム：RLVRを超えて継続学習へ

コアとなる賭け：RLVRとその限界

「グラインダビリティ（Grindability）」のボトルネック

継続学習の必要性

純粋なインコンテキスト学習の失敗

サンプル効率の問題

重みの更新のための提案された解決策

On-Policy Self-Distillation (OPSD)

「夢を見る」（Test-Time Training）

2027-2028年のビジョン

Sources