AReaL: 訓練大規模推理與代理型模型的可擴展非同步 RL 基礎設施

它解決了什麼問題

AReaL 是一個強化學習 (RL) 基礎設施，旨在彌合基礎模型訓練與建立複雜代理型 AI 應用程式之間的差距。它解決了在訓練大規模推理模型和 AI 代理時面臨的效率與可擴展性挑戰，讓研究人員和開發人員的過程變得更加容易且具備成本效益。

運作方式

AReaL 使用完全非同步的 RL 訓練範式，與同步系統相比，這可以顯著提高訓練速度。它支援廣泛的 RL 演算法（例如 GRPO、PPO 和 DPO）並與多個訓練後端（Megatron、PyTorch FSDP 和 PyTorch Archon）以及推理後端（vLLM 和 SGLang）整合。其設計具有模組化特性，允許開發人員透過替換 base_url 來為黑盒應用程式自定義代理型 RL。

對象是誰

此專案旨在提供給正在構建大規模推理模型、多輪代理型工作流，以及針對數學、程式碼、搜尋和客戶服務等任務的專用代理型 AI 的 AI 研究人員和開發人員。

重點亮點

非同步訓練：透過完全非同步的 RL 範式，實現業界領先的速度與穩定性。
龐大的演算法支援：包括 GRPO、GSPO、PPO、DAPO、LitePPO、REINFORCE++、RLOO 等的實作。
廣泛的硬體與後端支援：相容於 NVIDIA GPUs 和 Huawei Ascend NPUs，支援 Megatron、FSDP 和 SGLang/vLLM。
代理型靈活性：無縫整合代理型框架，並支援多輪工具呼叫與獎勵折扣。
輕量化版本：提供 AReaL-lite 用於快速原型設計與演算法優先的開發。

AReaL: 訓練大規模推理與代理型模型的可擴展非同步 RL 基礎設施

AReaL: 訓練大規模推理與代理型模型的可擴展非同步 RL 基礎設施

它解決了什麼問題

運作方式

對象是誰

重點亮點

Sources