'Article - 깊게 탐구하기/OpenAI Gym' 카테고리의 글 목록

MountainCar - Double DQN, Gradient Clipping, 하이퍼파라미터 다루기

나는 이전에 -120대에서 MountainCar 구현을 마무리 지었지만, 공식 문서에서는 100개 이상의 trials에서 -110 이상의 Reward를 문제 해결의 기준으로 판단한다. MountainCar v0A toolkit for developing and comparing reinforcement learning algorithms. - openai/gymgithub.com 그래서, 이러한 찜찜함을 제거하기 위해, MountainCar 문제에 마저 도전을 수행해보았다.DDQN 적용 Double DQN 최적 행동 선택과 행동 가치 평가(Q값 평가)의 신경망 분리 학습 시의 실시간 모멘텀을 가치 평가와 분리하면, 순간적으로 가치가 높아진 잘못된 행동을 계속 선택하는 현상을 막을 수 ..

Article - 깊게 탐구하기/OpenAI Gym 2026.03.10

MountainCar - Policy Gradient Methods, 그리고 회귀

다양한 알고리즘의 고민이전 글에서 이것 저것 수행해보고 난 뒤, 좀 더 다양한 기법들에 대해 트레이드오프를 이해할 필요성을 느낀 나는 다양한 알고리즘을 공부했다. 하지만 이번 MountainCar 환경에서는, 결국 DQN으로 다시 회귀할 수밖에 없었다.그 근거는 다음과 같다.나는 최근 다양한 정책 경사 알고리즘들을 공부해왔는데, 각 알고리즘은 해결하고자 하는 문제가 현재 MountainCar 의 상황과 맞지 않았다.하이퍼파라미터 튜닝은 예술의 영역이고, 숙련자들 또한 기존에 푼 문제와 논문에 존재하는 하이퍼파라미터를 참고하여 하이퍼파라미터를 설정한다는 것을 확인했다. REINFORCEREINFORCE는 가장 기초적인 Policy Gradient Method로, 다음과 같은 이점과 한계를 갖고 있다.이점정..

Article - 깊게 탐구하기/OpenAI Gym 2025.09.28

MountainCar - 단순 DQN으로 풀기

https://gymnasium.farama.org/environments/classic_control/mountain_car/ Gymnasium DocumentationA standard API for reinforcement learning and a diverse set of reference environments (formerly Gym)gymnasium.farama.org 요구사항 정의Mountain Car MDP는 사인곡선의 바닥에 확률적으로 배치된 자동차로 구성된 결정론적 MDP이다.가능한 동작은 자동차에 양방향으로 적용할 수 있는 가속뿐이다. 이 MDP의 목표는 오른쪽 언덕 꼭대기의 목표 상태에 도달하기 위해 자동차를 전략적으로 가속하는 것이다.Mountain Car Continuous ..

Article - 깊게 탐구하기/OpenAI Gym 2025.09.06

Pytorch GPU 사용 방법

아무 생각 없이 import torch 를 수행하면서 pip install torch를 실행시켰는데,이를 수행하니 파이토치가 GPU를 사용할 수 없었다. 추가적인 정보를 확인해보니, 전용 pytorch를 설치해줘야 GPU 사용이 가능했다.먼저 해당 링크에 접속해준다. Get StartedSet up PyTorch easily with local installation or supported cloud platforms.pytorch.org 해당 링크에서 자신의 컴퓨터와 cuda 설치 정보와 맞는 pytorch를 찾아, 해당 Run this Command를 쉘에서 실행시켜준다.cuda의 경우 최신 버전이 출시되더라도, pytorch는 그 버전을 stable로 지원하기까지 좀 시간이 걸린다.물론 Nightl..

Article - 깊게 탐구하기/OpenAI Gym 2025.09.05

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Go Gradually - Repository

Article - 깊게 탐구하기/OpenAI Gym 4

티스토리툴바