reinforcement-learning: 핵심 강화 학습 알고리즘의 독립적인 PyTorch 구현 모음

reinforcement-learning: 핵심 강화 학습 알고리즘의 독립적인 PyTorch 구현 모음

해결하고자 하는 문제

이 저장소는 기본 개념부터 심층 강화 학습까지 다양한 강화 학습(RL) 알고리즘에 대한 명확하고 독립적인 코드 예제를 제공합니다. 알고리즘당 하나의 파일로 구현되어 있어 학습 과정을 단순화하고 코드를 쉽게 읽고 공부할 수 있게 합니다.

작동 방식

프로젝트는 사용되는 환경에 따라 RL 알고리즘을 세 가지 주요 카테고리로 정리합니다:

Grid World: 정책 반복, 가치 반복, SARSA, Q-Learning, REINFORCE와 같은 기본 RL 개념.
CartPole: 균형 잡기 작업을 해결하기 위한 Deep Q-Network(DQN)와 Proximal Policy Optimization(PPO) 구현.
Atari: Breakout, Montezuma's Revenge와 같은 Atari 게임에 적용된 DQN 및 PPO의 고급 구현.

대상 독자

읽기 쉬운 코드 예제와 최신 하드웨어(Apple Silicon)에서의 벤치마크 성능 지표를 통해 실용적이고 직접적인 강화 학습 학습을 원하는 사람들을 위해 설계되었습니다.

주요 특징

독립 구현: 각 알고리즘이 하나의 파일에 포함되어 있어 참고하기 쉽습니다.
인용: 각 파일에 원본 논문 인용과 핵심 업데이트 방정식이 포함됩니다.
현대화된 스택: PyTorch 2.11, Gymnasium 1.2, 그리고 렌더링을 위한 Pygame으로 구축되었습니다.
성능 벤치마크: M3/M4 칩에서 Atari 게임에 대한 상세한 학습 시간, RAM 사용량, 최종 점수를 포함합니다.

Sources

undefinedrlcode/reinforcement-learning