입실론-그리디 정책은 탐색과 활용을 적절히 활용하기 위한 기법이다. 하지만 그 결과는 '완벽한 최적 정책'이 아니다.왜냐하면 '탐색'의 과정을 거쳐야 하고, 그 과정이 비효율이 되기 때문이다. 여기서 '활용'만 하고 싶다는 욕심이 생길 수 있다.몬테 카를로 법을 이용해, 완벽한 최적 정책을 학습하는 방법을 알아보자.On-Policy스스로 쌓은 경험을 토대로 자신의 정책을 개선하는 방식이다.밴디트 문제에서 구현한 입실론 그리디 정책에선 '탐색' 과정이 필수로 들어가왔다.Off-Policy자신과 다른 환경에서 얻은 경험을 토대로 자신의 정책을 개선하는 방식이다.만약, 평가와 개선의 대상인 정책과, 실제 행동을 선택하는 행동 정책을 구분하면 어떻게 될까?이렇게 하면, 실제 행동을 선택하는 'Target pol..