AReaL: 用于训练大规模推理和智能体模型的可扩展异步 RL 基础设施
AReaL: 用于训练大规模推理和智能体模型的可扩展异步 RL 基础设施
它解决了什么问题
AReaL 是一种强化学习 (RL) 基础设施,旨在弥合基础模型训练与构建复杂智能体 AI 应用之间的差距。它解决了在训练大规模推理模型和 AI 智能体时面临的效率和可扩展性挑战,使研究人员和开发人员能够更轻松、更具成本效益地进行开发。
工作原理
AReaL 采用完全异步的 RL 训练范式,与同步系统相比,可以显著提高训练速度。它支持广泛的 RL 算法(如 GRPO、PPO 和 DPO)并集成了多种训练后端(Megatron、PyTorch FSDP 和 PyTorch Archon)以及推理后端(vLLM 和 SGLang)。其设计具有模块化特性,允许开发人员通过替换 base_url 来为黑盒应用定制智能体 RL。
适用人群
该项目面向构建大规模推理模型、多轮智能体工作流以及针对数学、编程、搜索和客户服务等任务的专用智能体的 AI 研究人员和开发人员。
亮点
- 异步训练:通过完全异步的 RL 范式实现行业领先的速度和稳定性。
- 海量算法支持:包括
GRPO、GSPO、PPO、DAPO、LitePPO、REINFORCE++、RLOO等算法的实现。 - 广泛的硬件和后端支持:兼容 NVIDIA GPU 和华为 Ascend NPU,支持
Megatron、FSDP和SGLang/vLLM。 - 智能体灵活性:与智能体框架无缝集成,并支持多轮工具调用和奖励折扣。
- 轻量级版本:提供
AReaL-lite用于快速原型设计和算法优先的开发。
Sources
- undefinedareal-project/AReaL