OpenManus-RL: LLM 추론 및 의사결정 능력 향상을 위한 RL 기반 에이전트 튜닝 프레임워크

OpenManus-RL: LLM 추론 및 의사결정 능력 향상을 위한 RL 기반 에이전트 튜닝 프레임워크

해결하는 문제

OpenManus-RL은 강화 학습(RL)을 사용하여 LLM 에이전트의 추론 및 의사결정 능력을 향상시키기 위한 프레임워크를 제공합니다. 이는 단순한 지도 학습 기반 미세 조정(SFT)을 넘어, RL이 복잡한 환경에서 에이전트의 계획 수립, 도구 사용 및 오류 복구 능력을 어떻게 최적화할 수 있는지 탐구하는 것을 목표로 합니다.

작동 방식

이 프로젝트는 다양한 학습 패러다임을 구현하기 위해 verl RL 프레임워크를 통합합니다. 초기화를 위해 Supervised Fine-Tuning (SFT)과 에이전트 행동을 정교화하기 위한 PPO, DPO, GRPO와 같은 RL 알고리즘의 조합을 사용합니다. 추론 능력을 향상시키기 위해 Tree-of-Thoughts (ToT), Graph-of-Thoughts (GoT), Monte Carlo Tree Search (MCTS)와 같은 롤아웃 전략을 실험합니다. 이 시스템은 6개 도메인(OS, DB, Web, KG, Household, E-commerce)에 걸친 에이전트 궤적(trajectories)의 대규모 통합 데이터셋을 기반으로 하며, GAIA, AgentBench, WebShop과 같은 벤치마크를 통해 평가됩니다.

대상 사용자

이 프레임워크는 자율 에이전트를 연구하는 AI 연구자 및 개발자, 특히 LLM의 추론-행동 체인을 개선하기 위해 RL 기반 튜닝을 통합하려는 분들을 위해 설계되었습니다.

주요 특징

  • 포괄적인 RL 툴킷: 형식 기반(format-based) 및 결과 기반(outcome-based) 보상을 모두 지원하는 PPO, DPO, GRPO를 지원합니다.
  • 다양한 추론 전략: MCTS 및 Depth-First Search Decision Trees (DFSDT)와 같은 고급 롤아웃 기술을 구현합니다.
  • 대규모 궤적 데이터셋: ReAct 프레임워크를 사용하는 50,000개 이상의 에이전트 궤적을 포함하는 통합 데이터셋을 있습니다.
  • 환경 통합: 온라인 RL 튜닝을 위한 ALFWorld 및 WebShop과 같은 에이전트 환경에 대한 내장 지원을 제공합니다.

Sources