OpenManus-RL:用于提升 LLM 推理与决策的基于 RL 的智能体调优框架
OpenManus-RL:用于提升 LLM 推理与决策的基于 RL 的智能体调优框架
解决的问题
OpenManus-RL 提供了一个框架,利用强化学习(RL)提升 LLM 智能体的推理和决策能力。它旨在超越简单的监督微调,探索 RL 如何优化智能体在复杂环境中的规划、工具使用以及错误恢复能力。
工作原理
该项目集成了 verl RL 框架,以实现多种训练范式。它结合了用于初始化的监督微调(SFT)以及 PPO、DPO、GRPO 等 RL 算法来细化智能体行为。为提升推理能力,项目尝试了诸如思维树(Tree-of-Thoughts,ToT)、思维图(Graph-of-Thoughts,GoT)以及蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS)等 rollout 策略。系统基于一个涵盖六大领域(操作系统、数据库、网页、知识图谱、家庭、电子商务)的庞大综合智能体轨迹数据集,并在 GAIA、AgentBench、WebShop 等基准上进行评估。
适用人群
本框架面向从事自主智能体研究与开发的 AI 研究者和工程师,尤其是希望通过 RL 调优来提升 LLM 推理‑行动链的用户。
亮点
- 全面的 RL 工具箱:支持 PPO、DPO 和 GRPO,兼容基于格式的奖励和基于结果的奖励。
- 多样的推理策略:实现了包括 MCTS 和深度优先搜索决策树(Depth-First Search Decision Trees,DFSDT)在内的高级 rollout 技术。
- 大规模轨迹数据集:包含超过 50,000 条使用 ReAct 框架的智能体轨迹的综合数据集。
- 环境集成:内置对 ALFWorld、WebShop 等智能体环境的支持,可进行在线 RL 调优。
Sources
- undefinedOpenManus/OpenManus-RL