'오프 폴리시' 태그의 글 목록

[강화학습] Off-Policy, On-Policy, 중요도 샘플링

입실론-그리디 정책은 탐색과 활용을 적절히 활용하기 위한 기법이다. 하지만 그 결과는 '완벽한 최적 정책'이 아니다.왜냐하면 '탐색'의 과정을 거쳐야 하고, 그 과정이 비효율이 되기 때문이다. 여기서 '활용'만 하고 싶다는 욕심이 생길 수 있다.몬테 카를로 법을 이용해, 완벽한 최적 정책을 학습하는 방법을 알아보자.On-Policy스스로 쌓은 경험을 토대로 자신의 정책을 개선하는 방식이다.밴디트 문제에서 구현한 입실론 그리디 정책에선 '탐색' 과정이 필수로 들어가왔다.Off-Policy자신과 다른 환경에서 얻은 경험을 토대로 자신의 정책을 개선하는 방식이다.만약, 평가와 개선의 대상인 정책과, 실제 행동을 선택하는 행동 정책을 구분하면 어떻게 될까?이렇게 하면, 실제 행동을 선택하는 'Target pol..

AI Repository/기초 강화학습 2025.08.31

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Go Gradually - Repository

오프 폴리시 1

티스토리툴바