AReaL: 大規模な推論およびエージェント型モデルをトレーニングするためのスケーラブルな非同期RLインフラストラクチャ

AReaL: 大規模な推論およびエージェント型モデルをトレーニングするためのスケーラブルな非同期RLインフラストラクチャ

何を解決するか

AReaLは、基盤モデルのトレーニングと、複雑なエージェント型AIアプリケーションの構築との間のギャップを埋めるために設計された強化学習(RL)インフラストラクチャです。大規模な推論モデルやAIエージェントをトレーニングする際の効率性とスケーラビリティの課題に対処し、研究者や開発者がより容易かつコスト効率よくプロセスを進められるようにします。

仕組み

AReaLは、完全に非同期なRLトレーニングパラダイムを利用しており、同期システムと比較して大幅に高速なトレーニング速度を実現します。GRPO、PPO、DPOなどの幅広いRLアルゴリズムをサポートし、複数のトレーニングバックエンド(Megatron、PyTorch FSDP、PyTorch Archon)および推論バックエンド(vLLM、SGLang)と統合できます。モジュール式に設計されているため、開発者はbase_urlを置き換えることで、ブラックボックスアプリケーション向けにエージェント型RLをカスタマイズできます。

対象者

このプロジェクトは、大規模な推論モデル、マルチターン(多段階)のエージェント型ワークフロー、および数学、コーディング、検索、カスタマーサービスなどのタスクに特化したエージェントを構築するAI研究者や開発者を対象としています。

ハイライト

  • 非同期トレーニング: 完全に非同期なRLパラダイムを通じて、業界をリードする速度と安定性を実現します。
  • 膨大なアルゴリズムサポート: GRPO、GSPO、PPO、DAPO、LitePPO、REINFORCE++、RLOOなどの実装を含みます。
  • 幅広いハードウェアおよびバックエンドサポート: NVIDIA GPUおよびHuawei Ascend NPUと互換性があり、Megatron、FSDP、SGLang/vLLMをサポートします。
  • エージェント型の柔軟性: エージェント型フレームワークとシームレスに統合し、マルチターンでのツール呼び出しや報酬ディスカウントをサポートします。
  • 軽量版: 迅速なプロトタイピングとアルゴリズム優先の開発のために、AReaL-liteを提供します。

Sources