verl-agent: 맞춤형 메모리와 단계 독립 롤아웃을 갖춘 장기‑수평 LLM 에이전트 훈련을 위한 강화 학습 프레임워크

해결하고자 하는 문제

verl-agent는 장기‑수평 작업에 대한 LLM 에이전트 훈련의 확장성 문제를 해결합니다. 기존 방법은 전체 상호작용 기록을 모두 연결하는 경우가 많아 컨텍스트 길이가 급격히 증가하고 토큰 제한이나 비효율성을 초래합니다. 이 프로젝트는 컨텍스트 길이가 선형적으로 증가하지 않으면서 다중 턴 상호작용을 처리할 수 있는 강화 학습(RL) 기반 에이전트 훈련 프레임워크를 제공합니다.

작동 방식

프레임워크는 단계 독립 다중 턴 롤아웃 메커니즘을 구현합니다. 이전 모든 턴을 추가하는 대신, 단계별 입력 구조와 히스토리 관리를 완전히 사용자 정의할 수 있게 합니다. 즉, 개발자는 각 단계에서 모델에 전달할 정보(예: 최근 단계, 요약, 핵심 이벤트 등)를 정확히 정의할 수 있어 컨텍스트 길이를 거의 일정하게 유지합니다.

veRL 라이브러리와 통합되며 다양한 RL 알고리즘(프로젝트 고유의 GiGPO 포함)과 병렬화된 Gym‑style 환경을 지원해 고처리량 훈련을 가능하게 합니다. 또한 텍스트 전용 및 비전‑언어 멀티모달을 모두 지원합니다.

대상 사용자

복잡하고 다단계 작업을 수행하는 추론 에이전트를 구축하는 AI 연구자와 개발자를 위해 설계되었습니다. 적용 분야는 구현 AI(ALFWorld), 디지털 인터페이스(WebShop, AppWorld)부터 시각 게임(Sokoban) 및 도구 호출 검색 작업까지 다양합니다.

주요 특징

맞춤형 메모리: 유연한 메모리 모듈을 통해 각 단계에 포함할 히스토리를 정확히 선택할 수 있습니다.
장기‑수평 확장성: 시간에 따라 컨텍스트 길이를 일정하게 유지하여 30~50 단계가 필요한 작업을 지원합니다.
다양한 알고리즘 지원: GiGPO, GRPO, PPO, DAPO, GSPO, RLOO, REINFORCE++ 구현을 포함합니다.
멀티모달 기능: 시각 인지가 필요한 작업을 위해 Qwen3-VL 등 비전‑언어 에이전트 훈련을 지원합니다.
효율적인 훈련: LoRA 파인튜닝을 지원해 계산 비용을 낮추고, 7B 모델을 두 대의 H100 GPU에서 훈련할 수 있습니다.

SUMMARY: veRL의 확장으로, 단계 독립 롤아웃 메커니즘을 통해 장기‑수평, 다중 턴 작업을 효율적으로 처리하며 강화 학습으로 LLM 에이전트를 훈련합니다.

TITLE: verl-agent: 맞춤형 메모리와 단계 독립 롤아웃을 갖춘 장기‑수평 LLM 에이전트 훈련을 위한 강화 학습 프레임워크

verl-agent: 맞춤형 메모리와 단계 독립 롤아웃을 갖춘 장기‑수평 LLM 에이전트 훈련을 위한 강화 학습 프레임워크

verl-agent: 맞춤형 메모리와 단계 독립 롤아웃을 갖춘 장기‑수평 LLM 에이전트 훈련을 위한 강화 학습 프레임워크

해결하고자 하는 문제

작동 방식

대상 사용자

주요 특징

Sources