AReaL: 用于训练大规模推理和智能体模型的可扩展异步 RL 基础设施

它解决了什么问题

AReaL 是一种强化学习 (RL) 基础设施，旨在弥合基础模型训练与构建复杂智能体 AI 应用之间的差距。它解决了在训练大规模推理模型和 AI 智能体时面临的效率和可扩展性挑战，使研究人员和开发人员能够更轻松、更具成本效益地进行开发。

工作原理

AReaL 采用完全异步的 RL 训练范式，与同步系统相比，可以显著提高训练速度。它支持广泛的 RL 算法（如 GRPO、PPO 和 DPO）并集成了多种训练后端（Megatron、PyTorch FSDP 和 PyTorch Archon）以及推理后端（vLLM 和 SGLang）。其设计具有模块化特性，允许开发人员通过替换 base_url 来为黑盒应用定制智能体 RL。

适用人群

该项目面向构建大规模推理模型、多轮智能体工作流以及针对数学、编程、搜索和客户服务等任务的专用智能体的 AI 研究人员和开发人员。

亮点

异步训练：通过完全异步的 RL 范式实现行业领先的速度和稳定性。
海量算法支持：包括 GRPO、GSPO、PPO、DAPO、LitePPO、REINFORCE++、RLOO 等算法的实现。
广泛的硬件和后端支持：兼容 NVIDIA GPU 和华为 Ascend NPU，支持 Megatron、FSDP 和 SGLang/vLLM。
智能体灵活性：与智能体框架无缝集成，并支持多轮工具调用和奖励折扣。
轻量级版本：提供 AReaL-lite 用于快速原型设计和算法优先的开发。

AReaL: 用于训练大规模推理和智能体模型的可扩展异步 RL 基础设施

AReaL: 用于训练大规模推理和智能体模型的可扩展异步 RL 基础设施

它解决了什么问题

工作原理

适用人群

亮点

Sources