AReaL: 訓練大規模推理與代理型模型的可擴展非同步 RL 基礎設施
AReaL: 訓練大規模推理與代理型模型的可擴展非同步 RL 基礎設施
它解決了什麼問題
AReaL 是一個強化學習 (RL) 基礎設施,旨在彌合基礎模型訓練與建立複雜代理型 AI 應用程式之間的差距。它解決了在訓練大規模推理模型和 AI 代理時面臨的效率與可擴展性挑戰,讓研究人員和開發人員的過程變得更加容易且具備成本效益。
運作方式
AReaL 使用完全非同步的 RL 訓練範式,與同步系統相比,這可以顯著提高訓練速度。它支援廣泛的 RL 演算法(例如 GRPO、PPO 和 DPO)並與多個訓練後端(Megatron、PyTorch FSDP 和 PyTorch Archon)以及推理後端(vLLM 和 SGLang)整合。其設計具有模組化特性,允許開發人員透過替換 base_url 來為黑盒應用程式自定義代理型 RL。
對象是誰
此專案旨在提供給正在構建大規模推理模型、多輪代理型工作流,以及針對數學、程式碼、搜尋和客戶服務等任務的專用代理型 AI 的 AI 研究人員和開發人員。
重點亮點
- 非同步訓練:透過完全非同步的 RL 範式,實現業界領先的速度與穩定性。
- 龐大的演算法支援:包括 GRPO、GSPO、PPO、DAPO、LitePPO、REINFORCE++、RLOO 等的實作。
- 廣泛的硬體與後端支援:相容於 NVIDIA GPUs 和 Huawei Ascend NPUs,支援 Megatron、FSDP 和 SGLang/vLLM。
- 代理型靈活性:無縫整合代理型框架,並支援多輪工具呼叫與獎勵折扣。
- 輕量化版本:提供 AReaL-lite 用於快速原型設計與演算法優先的開發。
Sources
- undefinedareal-project/AReaL