OpenManus-RL: LLMの推論と意思決定を強化するためのRLベースのエージェントチューニングフレームワーク
OpenManus-RL: LLMの推論と意思決定を強化するためのRLベースのエージェントチューニングフレームワーク
何を解決するか
OpenManus-RLは、強化学習(RL)を使用してLLMエージェントの推論および意思決定能力を強化するためのフレームワークを提供します。単純な教師あり微調整(SFT)を超え、複雑な環境においてエージェントの計画、ツールの使用、およびエラーからの回復能力をRLがいかに最適化できるかを探求することを目指しています。
仕組み
このプロジェクトは、verl RLフレームワークを統合して、さまざまなトレーニングパラダイムを実装しています。初期化にはSupervised Fine-Tuning (SFT) を使用し、エージェントの行動を洗練させるためにPPO、DPO、およびGRPOなどのRLアルゴリズムを組み合わせて使用します。推論を向上させるために、Tree-of-Thoughts (ToT)、Graph-of-Thoughts (GoT)、およびMonte Carlo Tree Search (MCTS) などのロールアウト戦略を実験しています。このシステムは、6つのドメイン(OS, DB, Web, KG, Household, E-commerce)にわたるエージェントの軌跡(trajectories)の巨大な結合データセットに基づいており、GAIA、AgentBench、およびWebShopのようなベンチマークで評価されています。
対象者
このフレームワークは、自律型エージェントに取り組むAI研究者や開発者、特にLLMの推論・行動チェーンを改善するためにRLベースのチューニングを統合したいと考えている人々を対象としています。
ハイライト
- 包括的なRLツールキット: フォーマットベースおよび結果ベースのリワード(rewards)をサポートするPPO、DPO、およびGRPOをサポートしています。
- 多様な推論戦略: MCTSやDepth-First Search Decision Trees (DFSDT) のような高度なロールアウト技術を実装しています。
- 大規模な軌跡データセット: ReActフレームワークを使用した50,000件以上のエージェントの軌跡を含む結合データセットが含まれています。
- 環境統合: オンラインRLチューニングのためのALFWorldやWebShopのようなエージェント環境への組み込みサポートを提供しています。
Sources
- undefinedOpenManus/OpenManus-RL