reinforcement-learning: コアな強化学習アルゴリズムのスタンドアロンな PyTorch 実装集
reinforcement-learning: コアな強化学習アルゴリズムのスタンドアロンなPyTorch実装集
何を解決するか
このリポジトリは、基本的な概念から深層強化学習まで、強化学習(RL)アルゴリズムの明確でスタンドアロンなコード例のコレクションを提供します。アルゴリズムごとに1ファイルにまとめることで、学習プロセスを簡素化し、実装を読みやすく、学習しやすくしています。
仕組み
このプロジェクトは、使用される環境に基づいて、RLアルゴリズムを主に3つのカテゴリに分類しています:
- Grid World: Policy Iteration, Value Iteration, SARSA, Q-Learning, REINFORCE などの基本的なRL概念。
- CartPole: バランスタスクを解決するための Deep Q-Networks (DQN) と Proximal Policy Optimization (PPO) の実装。
- Atari: Breakout や Montezuma's Revenge のような Atari ゲームに適用される、より高度な DQN と PPO の実装。
対象者
読みやすいコード例と、最新のハードウェア(Apple Silicon)でのベンチマーク性能指標を通じて、実践的かつハンズオンなアプローチで強化学習を学ぶことを求めている人々を対象としています。
ハイライト
- スタンドアロンな実装: 各アルゴリズムは、参照のしやすさを考慮して単一のファイルに収められています。
- 引用: 各ファイルには、元の論文の引用とコアな更新式が含まれています。
- モダンなスタック: PyTorch 2.11, Gymnasium 1.2, およびレンダリング用の Pygame で構築されています。
- パフォーマンス・ベンチマーク: M3/M4 チップ上の Atari ゲームにおける詳細なトレーニング時間、RAM 使用量、および最終スコアが含まれています。
Sources
- undefinedrlcode/reinforcement-learning