AReaL: 用于训练大规模推理和智能体模型的可扩展异步 RL 基础设施

AReaL: 用于训练大规模推理和智能体模型的可扩展异步 RL 基础设施

它解决了什么问题

AReaL 是一种强化学习 (RL) 基础设施,旨在弥合基础模型训练与构建复杂智能体 AI 应用之间的差距。它解决了在训练大规模推理模型和 AI 智能体时面临的效率和可扩展性挑战,使研究人员和开发人员能够更轻松、更具成本效益地进行开发。

工作原理

AReaL 采用完全异步的 RL 训练范式,与同步系统相比,可以显著提高训练速度。它支持广泛的 RL 算法(如 GRPOPPODPO)并集成了多种训练后端(MegatronPyTorch FSDPPyTorch Archon)以及推理后端(vLLMSGLang)。其设计具有模块化特性,允许开发人员通过替换 base_url 来为黑盒应用定制智能体 RL。

适用人群

该项目面向构建大规模推理模型、多轮智能体工作流以及针对数学、编程、搜索和客户服务等任务的专用智能体的 AI 研究人员和开发人员。

亮点

  • 异步训练:通过完全异步的 RL 范式实现行业领先的速度和稳定性。
  • 海量算法支持:包括 GRPOGSPOPPODAPOLitePPOREINFORCE++RLOO 等算法的实现。
  • 广泛的硬件和后端支持:兼容 NVIDIA GPU 和华为 Ascend NPU,支持 MegatronFSDPSGLang/vLLM
  • 智能体灵活性:与智能体框架无缝集成,并支持多轮工具调用和奖励折扣。
  • 轻量级版本:提供 AReaL-lite 用于快速原型设计和算法优先的开发。

Sources