verl-agent: 一个用于训练具有可定制记忆和步长无关 rollouts 的长程 LLM 智能体的强化学习框架

verl-agent: 一个用于训练具有可定制记忆和步长无关 rollouts 的长程 LLM 智能体的强化学习框架

它解决了什么问题

verl-agent 解决了训练用于长程任务的 LLM 智能体的可扩展性问题。传统方法通常会拼接整个交互历史,这会导致上下文长度迅速增长,从而导致 token 限制或效率低下。该项目提供了一个通过强化学习 (RL) 训练智能体的框架,可以处理多轮交互,而不会导致上下文长度线性增长。

工作原理

该框架实现了一种 步长无关的多轮 rollout 机制。它不是追加所有之前的轮次,而是允许完全可定制的每步输入结构和历史管理。这意味着开发者可以精确定义在每一步向模型传递什么信息(例如,最近的步骤、摘要或关键事件),从而使上下文长度保持几乎恒定。

它集成了 veRL 库并支持多种 RL 算法(包括项目自带的 GiGPO)和并行化的 Gym 风格环境,以实现高吞吐量训练。它还支持纯文本和视觉语言模态。

适用人群

它专为 AI 研究人员和开发者设计,用于在从具身智能 (ALFWorld) 和数字界面 (WebShop, AppWorld) 到视觉游戏 (Sokoban) 和工具调用搜索任务的环境中,为复杂、多步任务构建推理智能体。

亮点

  • 可定制的记忆:灵活的记忆模块允许开发者为每一步精确选择要包含哪些历史。
  • 长程可扩展性:随着时间的推移保持恒定的上下文长度,支持需要 30–50 步的任务。
  • 广泛的算法支持:包括 GiGPO, GRPO, PPO, DAPO, GSPO, RLOO, 和 REINFORCE++ 的实现。
  • 多模态能力:支持训练视觉语言智能体(例如,使用 Qwen3-VL)以处理需要视觉感知的任务。
  • 高效训练:支持 LoRA 微调以降低计算成本,从而能够在两块 H100 GPU 上训练 7B 模型。

Sources