'Q 함수' 태그의 글 목록

[강화학습] 강화학습에서 최적 정책을 찾는 방법

최적 정책은 '평가'와 '개선'을 번갈아 반복하여 얻는다.'평가' 단계에서는 정책을 평가하여 가치 함수를 얻는다.그리고 '개선' 단계에서는 가치 함수를 탐욕화하여 정책을 개선한다.이 두 과정을 번갈아 반복함으로써 최적 정책(과 최적 가치 함수)에 점점 다가갈 수 있다. 신경망에 비유하자면, 강화학습의 '평가'는 손실 함수 역할이고, 강화학습의 '개선'은 경사 하강법이 수행하는 역할이다. 예를 들어 몬테 카를로 방법으로 강화학습을 수행한다고 해보자.pi라는 정책이 있다면, 몬테 카를로 법을 이용해 V_pi를 얻을 수 있다.그다음은 개선 단계이다. 개선 단계에서는 탐욕화를 수행하며, 다음 수식으로 표현할 수 있다.계산 단계에서는 가치 함수의 값을 최대로 만드는 행동을 선택한다.이를 탐욕화라고 한다. Q 함..

AI Repository/기초 강화학습 2025.09.01

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Go Gradually - Repository

Q 함수 1

티스토리툴바