reinforcement-learning: 核心強化學習演算法的獨立 PyTorch 實作集合

reinforcement-learning: 核心強化學習演算法的獨立 PyTorch 實作集合

它解決了什麼問題

這個儲存庫提供了一系列清晰、獨立的強化學習 (RL) 演算法程式碼範例，範圍從基礎概念到深度強化學習。它透過為每個演算法提供單一檔案來簡化學習過程，使實作內容易於閱讀與研究。

運作方式

該專案根據演算法所使用的環境將 RL 演算法分為三大類別：

Grid World: 基礎 RL 概念，如 Policy Iteration、Value Iteration、SARSA、Q-Learning 與 REINFORCE。
CartPole: 實作 Deep Q-Networks (DQN) 與 Proximal Policy Optimization (PPO) 以解決平衡任務。
Atari: 將 DQN 與 PPO 應用於 Breakout 與 Montezuma's Revenge 等 Atari 遊戲的高階實作。

對象是誰

它專為尋求透過易讀程式碼範例以及在現代硬體 (Apple Silicon) 上進行基準測試效能指標，來以實作導向方式學習強化學習的人士所設計。

重點特色

獨立實作: 每個演算法都包含在單一檔案中，方便查閱。
引用文獻: 每個檔案都包含原始論文引用與核心更新方程式。
現代化技術棧: 使用 PyTorch 2.11、Gymnasium 1.2 與 Pygame 進行渲染。
效能基準測試: 包含在 M3/M4 晶片上執行 Atari 遊戲的詳細訓練時間、RAM 使用量與最終分數。

Sources

undefinedrlcode/reinforcement-learning