verl-agent: 一个用于训练具有可定制记忆和步长无关 rollouts 的长程 LLM 智能体的强化学习框架

verl-agent: 一个用于训练具有可定制记忆和步长无关 rollouts 的长程 LLM 智能体的强化学习框架

它解决了什么问题

verl-agent 解决了训练用于长程任务的 LLM 智能体的可扩展性问题。传统方法通常会拼接整个交互历史，这会导致上下文长度迅速增长，从而导致 token 限制或效率低下。该项目提供了一个通过强化学习 (RL) 训练智能体的框架，可以处理多轮交互，而不会导致上下文长度线性增长。

工作原理

该框架实现了一种 步长无关的多轮 rollout 机制。它不是追加所有之前的轮次，而是允许完全可定制的每步输入结构和历史管理。这意味着开发者可以精确定义在每一步向模型传递什么信息（例如，最近的步骤、摘要或关键事件），从而使上下文长度保持几乎恒定。

它集成了 veRL 库并支持多种 RL 算法（包括项目自带的 GiGPO）和并行化的 Gym 风格环境，以实现高吞吐量训练。它还支持纯文本和视觉语言模态。

适用人群

它专为 AI 研究人员和开发者设计，用于在从具身智能 (ALFWorld) 和数字界面 (WebShop, AppWorld) 到视觉游戏 (Sokoban) 和工具调用搜索任务的环境中，为复杂、多步任务构建推理智能体。

亮点

可定制的记忆：灵活的记忆模块允许开发者为每一步精确选择要包含哪些历史。
长程可扩展性：随着时间的推移保持恒定的上下文长度，支持需要 30–50 步的任务。
广泛的算法支持：包括 GiGPO, GRPO, PPO, DAPO, GSPO, RLOO, 和 REINFORCE++ 的实现。
多模态能力：支持训练视觉语言智能体（例如，使用 Qwen3-VL）以处理需要视觉感知的任务。
高效训练：支持 LoRA 微调以降低计算成本，从而能够在两块 H100 GPU 上训练 7B 模型。

Sources

undefinedlangfengQ/verl-agent