verl-agent: カスタマイズ可能なメモリとステップ非依存のロールアウトを備えた、長期的なタスクを実行するLLMエージェントを訓練するための強化学習フレームワーク

verl-agent: カスタマイズ可能なメモリとステップ非依存のロールアウトを備えた、長期的なタスクを実行するLLMエージェントを訓練するための強化学習フレームワーク

解決する課題

verl-agentは、長期的なタスク(long-horizon tasks)のためのLLMエージェントの訓練におけるスケーラビリティの問題に対処します。従来の方法では、インタラクション履歴全体を連結することが多く、その結果、コンテキスト長が急速に増大し、トークン制限や非効率性を引き起こします。このプロジェクトは、コンテキスト長の線形な増加なしに、マルチターン・インタラクションを処理できる強化学習(RL)によるエージェント訓練のフレームワークを提供します。

仕組み

このフレームワークは、ステップ非依存のマルチターン・ロールアウト・メカニズムを実装しています。以前のすべてのターンを追記する代わりに、ステップごとに完全にカスタマイズ可能な入力構造と履歴管理を可能にします。これにより、開発者は各ステップでどのような情報(例:最近のステップ、要約、または重要なイベント)をモデルに渡すかを正確に定義でき、コンテキスト長をほぼ一定に保つことができます。

veRLライブラリと統合されており、さまざまなRLアルゴリズム(プロジェクト独自のGiGPOを含む)や、高スループットな訓練を可能にする並列化されたGymスタイルの環境をサポートしています。また、テキストのみのモダリティと、視覚言語(vision-language)モダリティの両方をサポートしています。

対象ユーザー

エンボディドAI(ALFWorld)やデジタルインターフェース(WebShop, AppWorld)、視覚的なゲーム(Sokoban)、ツール呼び出し検索タスクなど、複雑で多段階のタスクを実行する推論エージェントを構築するAI研究者や開発者向けに設計されています。

ハイライト

  • カスタマイズ可能なメモリ: 柔軟なメモリ・モジュールにより、開発者は各ステップに含める履歴を正確に選択できます。
  • 長期的なスケーラビリティ: 時間経過とともにコンテキスト長を一定に保ち、30〜50ステップを必要とするタスクをサポートします。
  • 幅広いアルゴリズムのサポート: GiGPO, GRPO, PPO, DAPO, GSPO, RLOO, REINFORCE++の実装を含みます。
  • マルチモーダル機能: 視覚的な知覚を必要とするタスクのために、視覚言語エージェント(例:Qwen3-VLを使用)の訓練をサポートします。
  • 効率的な訓練: 計算コストを削減するためにLoRAファインチューニングをサポートしており、2枚のH100 GPUで7Bモデルの訓練が可能です。

Sources