OpenManus-RL：用於提升 LLM 推理與決策的 RL 代理調校框架

它解決了什麼問題

OpenManus-RL 提供了一個框架，透過強化學習 (RL) 增強 LLM 代理的推理與決策能力。它旨在超越單純的監督式微調，探索 RL 如何最佳化代理在複雜環境中規劃、使用工具以及從錯誤中恢復的能力。

它如何運作

此專案整合了 verl RL 框架，以實作各種訓練範式。它結合了用於初始化的監督式微調 (SFT) 與 PPO、DPO、GRPO 等 RL 演算法來細緻調整代理行為。為了提升推理能力，專案還實驗了如 Tree-of-Thoughts (ToT)、Graph-of-Thoughts (GoT) 與 Monte Carlo Tree Search (MCTS) 等 rollout 策略。系統以六大領域（OS、DB、Web、KG、Household、E‑commerce）的大量代理軌跡資料為基礎，並在 GAIA、AgentBench、WebShop 等基準上進行評估。

目標對象

此框架設計給從事自主代理研究與開發的 AI 研究者與工程師，特別是希望透過 RL 調校來改善 LLM 推理‑行動鏈的使用者。

重點特色

完整的 RL 工具箱：支援 PPO、DPO 與 GRPO，並提供格式導向與結果導向的獎勵機制。
多樣的推理策略：實作先進的 rollout 技術，如 MCTS 與深度優先搜尋決策樹 (DFSDT)。
大規模軌跡資料集：包含超過 50,000 筆使用 ReAct 框架的代理軌跡的綜合資料集。
環境整合：內建對 ALFWorld 與 WebShop 等代理環境的支援，可進行線上 RL 調校。

OpenManus-RL：用於提升 LLM 推理與決策的 RL 代理調校框架

OpenManus-RL：用於提升 LLM 推理與決策的 RL 代理調校框架

它解決了什麼問題

它如何運作

目標對象

重點特色

Sources