reinforcement-learning: 핵심 강화 학습 알고리즘의 독립적인 PyTorch 구현 모음
reinforcement-learning: 핵심 강화 학습 알고리즘의 독립적인 PyTorch 구현 모음
해결하고자 하는 문제
이 저장소는 기본 개념부터 심층 강화 학습까지 다양한 강화 학습(RL) 알고리즘에 대한 명확하고 독립적인 코드 예제를 제공합니다. 알고리즘당 하나의 파일로 구현되어 있어 학습 과정을 단순화하고 코드를 쉽게 읽고 공부할 수 있게 합니다.
작동 방식
프로젝트는 사용되는 환경에 따라 RL 알고리즘을 세 가지 주요 카테고리로 정리합니다:
- Grid World: 정책 반복, 가치 반복, SARSA, Q-Learning, REINFORCE와 같은 기본 RL 개념.
- CartPole: 균형 잡기 작업을 해결하기 위한 Deep Q-Network(DQN)와 Proximal Policy Optimization(PPO) 구현.
- Atari: Breakout, Montezuma's Revenge와 같은 Atari 게임에 적용된 DQN 및 PPO의 고급 구현.
대상 독자
읽기 쉬운 코드 예제와 최신 하드웨어(Apple Silicon)에서의 벤치마크 성능 지표를 통해 실용적이고 직접적인 강화 학습 학습을 원하는 사람들을 위해 설계되었습니다.
주요 특징
- 독립 구현: 각 알고리즘이 하나의 파일에 포함되어 있어 참고하기 쉽습니다.
- 인용: 각 파일에 원본 논문 인용과 핵심 업데이트 방정식이 포함됩니다.
- 현대화된 스택: PyTorch 2.11, Gymnasium 1.2, 그리고 렌더링을 위한 Pygame으로 구축되었습니다.
- 성능 벤치마크: M3/M4 칩에서 Atari 게임에 대한 상세한 학습 시간, RAM 사용량, 최종 점수를 포함합니다.
Sources
- undefinedrlcode/reinforcement-learning