OpenManus-RL: LLMの推論と意思決定を強化するためのRLベースのエージェントチューニングフレームワーク

何を解決するか

OpenManus-RLは、強化学習（RL）を使用してLLMエージェントの推論および意思決定能力を強化するためのフレームワークを提供します。単純な教師あり微調整（SFT）を超え、複雑な環境においてエージェントの計画、ツールの使用、およびエラーからの回復能力をRLがいかに最適化できるかを探求することを目指しています。

仕組み

このプロジェクトは、verl RLフレームワークを統合して、さまざまなトレーニングパラダイムを実装しています。初期化にはSupervised Fine-Tuning (SFT) を使用し、エージェントの行動を洗練させるためにPPO、DPO、およびGRPOなどのRLアルゴリズムを組み合わせて使用します。推論を向上させるために、Tree-of-Thoughts (ToT)、Graph-of-Thoughts (GoT)、およびMonte Carlo Tree Search (MCTS) などのロールアウト戦略を実験しています。このシステムは、6つのドメイン（OS, DB, Web, KG, Household, E-commerce）にわたるエージェントの軌跡（trajectories）の巨大な結合データセットに基づいており、GAIA、AgentBench、およびWebShopのようなベンチマークで評価されています。

対象者

このフレームワークは、自律型エージェントに取り組むAI研究者や開発者、特にLLMの推論・行動チェーンを改善するためにRLベースのチューニングを統合したいと考えている人々を対象としています。

ハイライト

包括的なRLツールキット: フォーマットベースおよび結果ベースのリワード（rewards）をサポートするPPO、DPO、およびGRPOをサポートしています。
多様な推論戦略: MCTSやDepth-First Search Decision Trees (DFSDT) のような高度なロールアウト技術を実装しています。
大規模な軌跡データセット: ReActフレームワークを使用した50,000件以上のエージェントの軌跡を含む結合データセットが含まれています。
環境統合: オンラインRLチューニングのためのALFWorldやWebShopのようなエージェント環境への組み込みサポートを提供しています。

OpenManus-RL: LLMの推論と意思決定を強化するためのRLベースのエージェントチューニングフレームワーク

OpenManus-RL: LLMの推論と意思決定を強化するためのRLベースのエージェントチューニングフレームワーク

何を解決するか

仕組み

対象者

ハイライト

Sources