Qwen-AgentWorld: RL 환경 시뮬레이션을 위한 언어 월드 모델
Qwen-AgentWorld: RL 환경 시뮬레이션을 위한 언어 월드 모델
개요
Qwen-AgentWorld는 에이전트 행동의 결과를 예측함으로써 강화 학습(RL) 환경을 시뮬레이션하도록 설계된 월드 모델입니다. 어떤 행동을 취할지(정책) 결정하도록 주로 훈련되는 전통적인 에이전트와 달리, Qwen-AgentWorld는 행동이 취해진 후에 어떤 일이 발생하는지를 예측하도록 훈련되어 환경 자체를 효과적으로 시뮬레이션합니다.
이러한 접근 방식은 Android emulators 또는 live servers와 같이 비용이 많이 들거나 느린 물리적 샌드박스의 필요 없이 합성 RL 궤적(trajectories)을 생성하고 적대적 훈련 조건을 생성할 수 있게 해줍니다.
핵심 역량 및 지원 도메인
Qwen-AgentWorld는 현재 상태와 제공된 행동을 기반으로 터미널 출력, 웹페이지용 HTML, 또는 API용 JSON과 같은 환경의 다음 상태를 예측합니다. 이는 7가지의 뚜렷렷한 도메인에서 작동합니다:
- Terminal: CLI 작업 및 Bash 명령.
- Software Engineering: 코딩 및 개발 환경.
- Web Search: 검색 엔진과의 상호작용.
- Tools: MCP (Model Context Protocol) 도구와의 상호작용.
- Web Browsers: 일반적인 웹 탐색 및 상호작용.
- Desktop OS: Ubuntu 및 Windows를 포함한 운영 체제.
- Android OS: 모바일 운영 체제 시뮬레이션.
NVIDIA의 Cosmos 또는 Genie와 같은 다른 월드 모델이 시각적 프레임이나 비디오 예측에 집중하는 반면, Qwen-AgentWorld는 자기회귀적(autoregressive) 텍스트를 예측하므로 기술적이고 프로그래밍적인 환경에 매우 효율적입니다.
에이전트 성능에 미치는 영향
언어 월드 모델을 사용하여 에이전트를 훈련시키는 것은 시뮬레이션과 향상된 추론이라는 두 가지 주요 이점을 제공합니다.
고충실도 시뮬레이션 및 적대적 훈련
월드 모델을 시뮬레이터로 사용하면 실제 샌드박스를 구동하는 오버헤드를 제거할 수 있습니다. 환경이 시뮬레이션되기 때문에 개발자는 의도적으로 오류를 주입하거나, 정답을 숨기거나, 결과를 페이지화하여 적대적 조건을 만들 수 있습니다. 이는 에이전트가 표준적인 "happy path" RL 환경에서 거의 마주치지 않는 엣지 케이스를 직면하게 함으로써 에이전트를 더욱 견고하게 만듭니다.
향상된 추론 및 자기 성찰
모델에게 세상의 반응을 예측하도록 가르치는 것은 행동하기 전에 결과를 상상하는 습관을 장려합니다. 이는 모델의 추론 및 자기 성찰 능력을 향상시킵니다. 소스 데이터에 따르면, 언어 월드 모델 RL 훈련을 통합함으로써 특정 테스트에서 정확도가 69.9%에서 78.3%로 증가했습니다.
훈련 파이프라인
Qwen-AgentWorld의 개발은 "CPT injects, SFT activates, RL sharpens"라는 3단계 프로세스를 따릅니다.
1. Continual Pre-Training (CPT)
이 단계는 월드 지식을 주입합니다. 모델에는 샌드박스(예: Android emulators, OS emulators)에서 추출한 수백만 개의 실제 세계 행동-관찰 궤적과 법률, 의료, 금융, 사이버 보안과 같은 전문 분야를 다루는 월드 지식 코퍼스(corpora)가 제공됩니다.
2. Supervised Fine-Tuning (SFT)
이 단계는 추론을 활성화합니다. 모델은 다음 토큰 예측을 넘어 다음 상태를 예측하기 전에 명시적인 추론 체인(reasoning chains)을 생성합니다. 높은 품질을 보장하기 위해, rejection sampling을 사용하여 약 7,000개의 고품질 사고 궤적을 선택했습니다.
3. Reinforcement Learning (RL)
이 단계는 예측의 충실도를 날카롭게 다듬습니다. 모델은 reward hacking을 방지하기 위해 on-policy rollouts와 이중 검증 시스템을 사용하여 정refinement를 거칩니다:
- LLM-as-a-Judge: 형식, 사실성, 일관성, 현실성 및 품질에 대해 예측을 점수 매깁니다.
- Rule-based Verifiers: 유효한 JSON formatting 또는 실행 가능한 code와 같은 정확한 요구 사항을 확인합니다.
개발자를 위한 실용적인 응용 분야
Qwen-AgentWorld는 특정 사용 사례를 위해 로컬 AI 모델을 미세 조정하기 위한 고품질 합성 RL 데이터 생성을 가능하게 합니다.
- Synthetic Trajectory Generation: 개발자는 모델을 사용하여 수천 개의 궤적을 빠르게 생성할 수 있으며, 이는 더 큰 독점 모델(예: Claude)로부터 지식을 증류(distill)하는 데 사용할 수 있습니다. 이를 통해 더 작고 전문화된 로컬 모델로 지식을 전달할 수 있습니다.
- Real-time RL Environments: 모델은 사용자 정의 reward model과 결합되어 실시간 에이전트 훈련을 위한 라이브 RL 환경 역할을 할 수 있습니다.
- Specialized Fine-Tuning: 시스템 프롬프트를 조정하여(예: 모델에게 pandas specialist가 되도록 지시) 개발자는 모델의 내부 월드 지식을 활용하여 틈새 기술 작업에 대해 매우 정확한 훈련 데이터를 생성할 수 있습니다.",