OpenManus-RL：用于提升 LLM 推理与决策的基于 RL 的智能体调优框架

解决的问题

OpenManus-RL 提供了一个框架，利用强化学习（RL）提升 LLM 智能体的推理和决策能力。它旨在超越简单的监督微调，探索 RL 如何优化智能体在复杂环境中的规划、工具使用以及错误恢复能力。

工作原理

该项目集成了 verl RL 框架，以实现多种训练范式。它结合了用于初始化的监督微调（SFT）以及 PPO、DPO、GRPO 等 RL 算法来细化智能体行为。为提升推理能力，项目尝试了诸如思维树（Tree-of-Thoughts，ToT）、思维图（Graph-of-Thoughts，GoT）以及蒙特卡罗树搜索（Monte Carlo Tree Search，MCTS）等 rollout 策略。系统基于一个涵盖六大领域（操作系统、数据库、网页、知识图谱、家庭、电子商务）的庞大综合智能体轨迹数据集，并在 GAIA、AgentBench、WebShop 等基准上进行评估。

适用人群

本框架面向从事自主智能体研究与开发的 AI 研究者和工程师，尤其是希望通过 RL 调优来提升 LLM 推理‑行动链的用户。

亮点

全面的 RL 工具箱：支持 PPO、DPO 和 GRPO，兼容基于格式的奖励和基于结果的奖励。
多样的推理策略：实现了包括 MCTS 和深度优先搜索决策树（Depth-First Search Decision Trees，DFSDT）在内的高级 rollout 技术。
大规模轨迹数据集：包含超过 50,000 条使用 ReAct 框架的智能体轨迹的综合数据集。
环境集成：内置对 ALFWorld、WebShop 等智能体环境的支持，可进行在线 RL 调优。

OpenManus-RL：用于提升 LLM 推理与决策的基于 RL 的智能体调优框架

OpenManus-RL：用于提升 LLM 推理与决策的基于 RL 的智能体调优框架

解决的问题

工作原理

适用人群

亮点

Sources