OpenManus-RL:用於提升 LLM 推理與決策的 RL 代理調校框架
OpenManus-RL:用於提升 LLM 推理與決策的 RL 代理調校框架
它解決了什麼問題
OpenManus-RL 提供了一個框架,透過強化學習 (RL) 增強 LLM 代理的推理與決策能力。它旨在超越單純的監督式微調,探索 RL 如何最佳化代理在複雜環境中規劃、使用工具以及從錯誤中恢復的能力。
它如何運作
此專案整合了 verl RL 框架,以實作各種訓練範式。它結合了用於初始化的監督式微調 (SFT) 與 PPO、DPO、GRPO 等 RL 演算法來細緻調整代理行為。為了提升推理能力,專案還實驗了如 Tree-of-Thoughts (ToT)、Graph-of-Thoughts (GoT) 與 Monte Carlo Tree Search (MCTS) 等 rollout 策略。系統以六大領域(OS、DB、Web、KG、Household、E‑commerce)的大量代理軌跡資料為基礎,並在 GAIA、AgentBench、WebShop 等基準上進行評估。
目標對象
此框架設計給從事自主代理研究與開發的 AI 研究者與工程師,特別是希望透過 RL 調校來改善 LLM 推理‑行動鏈的使用者。
重點特色
- 完整的 RL 工具箱:支援 PPO、DPO 與 GRPO,並提供格式導向與結果導向的獎勵機制。
- 多樣的推理策略:實作先進的 rollout 技術,如 MCTS 與深度優先搜尋決策樹 (DFSDT)。
- 大規模軌跡資料集:包含超過 50,000 筆使用 ReAct 框架的代理軌跡的綜合資料集。
- 環境整合:內建對 ALFWorld 與 WebShop 等代理環境的支援,可進行線上 RL 調校。
Sources
- undefinedOpenManus/OpenManus-RL