reinforcement-learning: コアな強化学習アルゴリズムのスタンドアロンな PyTorch 実装集

reinforcement-learning: コアな強化学習アルゴリズムのスタンドアロンなPyTorch実装集

何を解決するか

このリポジトリは、基本的な概念から深層強化学習まで、強化学習（RL）アルゴリズムの明確でスタンドアロンなコード例のコレクションを提供します。アルゴリズムごとに1ファイルにまとめることで、学習プロセスを簡素化し、実装を読みやすく、学習しやすくしています。

仕組み

このプロジェクトは、使用される環境に基づいて、RLアルゴリズムを主に3つのカテゴリに分類しています：

Grid World: Policy Iteration, Value Iteration, SARSA, Q-Learning, REINFORCE などの基本的なRL概念。
CartPole: バランスタスクを解決するための Deep Q-Networks (DQN) と Proximal Policy Optimization (PPO) の実装。
Atari: Breakout や Montezuma's Revenge のような Atari ゲームに適用される、より高度な DQN と PPO の実装。

対象者

読みやすいコード例と、最新のハードウェア（Apple Silicon）でのベンチマーク性能指標を通じて、実践的かつハンズオンなアプローチで強化学習を学ぶことを求めている人々を対象としています。

ハイライト

スタンドアロンな実装: 各アルゴリズムは、参照のしやすさを考慮して単一のファイルに収められています。
引用: 各ファイルには、元の論文の引用とコアな更新式が含まれています。
モダンなスタック: PyTorch 2.11, Gymnasium 1.2, およびレンダリング用の Pygame で構築されています。
パフォーマンス・ベンチマーク: M3/M4 チップ上の Atari ゲームにおける詳細なトレーニング時間、RAM 使用量、および最終スコアが含まれています。

Sources

undefinedrlcode/reinforcement-learning