나는 이전에 -120대에서 MountainCar 구현을 마무리 지었지만, 공식 문서에서는 100개 이상의 trials에서 -110 이상의 Reward를 문제 해결의 기준으로 판단한다. MountainCar v0A toolkit for developing and comparing reinforcement learning algorithms. - openai/gymgithub.com 그래서, 이러한 찜찜함을 제거하기 위해, MountainCar 문제에 마저 도전을 수행해보았다.DDQN 적용Double DQN최적 행동 선택과 행동 가치 평가(Q값 평가)의 신경망 분리학습 시의 실시간 모멘텀을 가치 평가와 분리하면, 순간적으로 가치가 높아진 잘못된 행동을 계속 선택하는 현상을 막을 수 있다.하지만, 큰 차이가..