verl-agent: 一個用於訓練長程 LLM agent 的強化學習框架,具備可自定義的記憶與步進獨立的 rollouts

verl-agent: 一個用於訓練長程 LLM agent 的強化學習框架,具備可自定義的記憶與步進獨立的 rollouts

它解決了什麼問題

verl-agent 解決了訓練用於長程任務的 LLM agent 的擴展性問題。傳統方法通常會串接整個互動歷史,這會導致上下文長度迅速增加,進而導致 token 限制或效率低下。本專案提供了一個透過強化學習 (RL) 訓練 agent 的框架,能夠處理多輪互動,而不會導致上下文長度線性增長。

運作原理

該框架實現了步進獨立的多輪 rollout 機制。它不是附加所有先前的輪次,而是允許針對每一步進行完全可自定義的輸入結構與歷史管理。這意味著開發者可以精確定義在每一步傳遞給模型的資訊(例如:近期步驟、摘要或關鍵事件),從而使上下文長度保持幾乎不變。

它與 veRL 函式庫整合,並支援多種 RL 演算法(包括專案本身的 GiGPO)以及並行化的 Gym-style 環境,以實現高吞吐量的訓練。它也支援純文字與視覺語言模態。

對象是誰

它專為 AI 研究人員與開發者設計,用於在各種環境中為複雜、多步驟任務構建推理 agent,環境範圍涵蓋具身智能 (ALFWorld) 與數位介面 (WebShop, AppWorld),到視覺遊戲 (Sokoban) 與工具調用搜尋任務。

重點亮點

  • 可自定義的記憶:靈活的記憶模組允許開發者精確選擇每一步要包含哪些歷史資訊。
  • 長程擴展性:隨著時間推移保持恆定的上下文長度,支援需要 30–50 步的任務。
  • 廣泛的演算法支援:包含 GiGPO, GRPO, PPO, DAPO, GSPO, RLOO, 以及 REINFORCE++ 的實作。
  • 多模態能力:支援訓練視覺語言 agent(例如:使用 Qwen3-VL)以處理需要視覺感知的任務。
  • 高效訓練:支援 LoRA 微調以降低計算成本,使得在兩張 H100 GPU 上即可進行 7B 模型訓練。

Sources