에이전트 구현 방법에는 크게 '분포 모델'과 '샘플 모델'이 있다.분포 모델분포 모델은 확률 분포를 명시적으로 유지하는 모델이다.그래서 '무작위로 행동하는 에이전트'를 분포 모델로 구현한다면, 다음처럼 구현할 수 있다.이와 같이 각 상태에서의 행동 확률 분포를 self.pi 변수에 유지한다.그리고 실제 행동을 할 때는 이 확률 분포를 토대로 샘플링한다. 이것이 에이전트를 분포 모델로 구현하는 방법이며, 이처럼 확률 분포를 명시적으로 유지한다는 점이 분포 모델의 특징이다.샘플 모델샘플 모델은 '샘플링이 가능하다' 라는 조건만 충족하면 되는 모델이다.확률 분포를 유지할 필요가 없기 때문에 분포 모델보다 간단히 구현할 수 있다.확률 분포 없이 단순히 네 가지 행동 중 하나를 무작위로 선택하도록 구현했다. 이건..