verl-agent: 一個用於訓練長程 LLM agent 的強化學習框架，具備可自定義的記憶與步進獨立的 rollouts

verl-agent: 一個用於訓練長程 LLM agent 的強化學習框架，具備可自定義的記憶與步進獨立的 rollouts

它解決了什麼問題

verl-agent 解決了訓練用於長程任務的 LLM agent 的擴展性問題。傳統方法通常會串接整個互動歷史，這會導致上下文長度迅速增加，進而導致 token 限制或效率低下。本專案提供了一個透過強化學習 (RL) 訓練 agent 的框架，能夠處理多輪互動，而不會導致上下文長度線性增長。

運作原理

該框架實現了步進獨立的多輪 rollout 機制。它不是附加所有先前的輪次，而是允許針對每一步進行完全可自定義的輸入結構與歷史管理。這意味著開發者可以精確定義在每一步傳遞給模型的資訊（例如：近期步驟、摘要或關鍵事件），從而使上下文長度保持幾乎不變。

它與 veRL 函式庫整合，並支援多種 RL 演算法（包括專案本身的 GiGPO）以及並行化的 Gym-style 環境，以實現高吞吐量的訓練。它也支援純文字與視覺語言模態。

對象是誰

它專為 AI 研究人員與開發者設計，用於在各種環境中為複雜、多步驟任務構建推理 agent，環境範圍涵蓋具身智能 (ALFWorld) 與數位介面 (WebShop, AppWorld)，到視覺遊戲 (Sokoban) 與工具調用搜尋任務。

重點亮點

可自定義的記憶：靈活的記憶模組允許開發者精確選擇每一步要包含哪些歷史資訊。
長程擴展性：隨著時間推移保持恆定的上下文長度，支援需要 30–50 步的任務。
廣泛的演算法支援：包含 GiGPO, GRPO, PPO, DAPO, GSPO, RLOO, 以及 REINFORCE++ 的實作。
多模態能力：支援訓練視覺語言 agent（例如：使用 Qwen3-VL）以處理需要視覺感知的任務。
高效訓練：支援 LoRA 微調以降低計算成本，使得在兩張 H100 GPU 上即可進行 7B 模型訓練。

Sources

undefinedlangfengQ/verl-agent