AReaL: 대규모 추론 및 에이전트 모델 학습을 위한 확장 가능한 비동기 RL 인프라

해결하는 문제

AReaL은 파운데이션 모델 학습과 복잡한 에이전트형 AI 애플리케이션 생성 사이의 간극을 메우기 위해 설계된 강화 학습(RL) 인프라입니다. 대규모 추론 모델 및 AI 에이전트를 학습할 때 발생하는 효율성 및 확장성 문제를 해결하여, 연구자와 개발자가 프로세스를 더 쉽게 접근하고 비용 효율적으로 수행할 수 있도록 합니다.

작동 방식

AReaL은 완전 비동기 RL 학습 패러다임을 활용하여 동기식 시스템에 비해 현저히 빠른 학습 속도를 제공합니다. GRPO, PPO, DPO와 같은 다양한 RL 알고리즘을 지원하며, 다양한 학습 백엔드(Megatron, PyTorch FSDP, PyTorch Archon) 및 추론 백엔드(vLLM, SGLang)와 통합됩니다. 모듈식으로 설계되어 개발자가 base_url을 교체하여 블랙박스 애플리케이션을 위한 에이전트형 RL을 맞춤 설정할 수 있습니다.

대상 사용자

이 프로젝트는 대규모 추론 모델, 멀티턴 에이전트 워크플로우, 그리고 수학, 코딩, 검색, 고객 서비스와 같은 작업을 위한 특화된 에이전트를 구축하는 AI 연구자와 개발자를 대상으로 합니다.

주요 특징

비동기 학습: 완전 비동기 RL 패러다임을 통해 업계 최고 수준의 속도와 안정성을 달성합니다.
방대한 알고리즘 지원: GRPO, GSPO, PPO, DAPO, LitePPO, REINFORCE++, RLOO 등을 포함합니다.
폭넓은 하드웨어 및 백엔드 지원: NVIDIA GPU 및 Huawei Ascend NPU와 호환되며, Megatron, FSDP, SGLang/vLLM을 지원합니다.
에이전트 유연성: 에이전트 프레임워크와 원활하게 통합되며 멀티턴 도구 호출 및 보상 할인(reward discounting)을 지원합니다.
경량 버전: 신속한 프로토타이핑 및 알고리즘 중심 개발을 위한 AReaL-lite를 제공합니다.

AReaL: 대규모 추론 및 에이전트 모델 학습을 위한 확장 가능한 비동기 RL 인프라

AReaL: 대규모 추론 및 에이전트 모델 학습을 위한 확장 가능한 비동기 RL 인프라

해결하는 문제

작동 방식

대상 사용자

주요 특징

Sources