시작하기 전에, 간단하게 강화학습에서의 몬테 카를로와 DP의 특징에 대해 짚고 넘어가겠다.DP다이나믹 프로그래밍의 점화식을 통한 증분 계산을 활용한다.장점따라서 에피소드 진행 중 평가와 개선을 번갈아가며 최적 정책을 얻을 수 있다.이 과정에서 반복되는 계산을 하나로 합쳐 진행하는 최적화(가치 반복법) 또한 가능하다.단점환경 모델(상태 전이 확률과 보상 함수)이 확실하게 알려져 있어야 계산이 가능하다.계산량에 대한 부하가 심하다.몬테 카를로실제 시나리오를 돌려보면서 환경을 추론한다. (비정상 Multi-Armed Bandit 문제)장점환경 모델이 확실하지 않더라도 평가/개선이 가능하다.단점몬테 카를로의 특성 상, 하나의 에피소드가 끝나야 평가 후 개선이 가능하다.일회성 과제에서만 사용이 가능하고, 지속적 ..