[강화학습] 강화학습에서 최적 정책을 찾는 방법

AI Repository/기초 강화학습

[강화학습] 강화학습에서 최적 정책을 찾는 방법

조금씩 차근차근 2025. 9. 1. 14:59

최적 정책은 '평가'와 '개선'을 번갈아 반복하여 얻는다.
'평가' 단계에서는 정책을 평가하여 가치 함수를 얻는다.
그리고 '개선' 단계에서는 가치 함수를 탐욕화하여 정책을 개선한다.
이 두 과정을 번갈아 반복함으로써 최적 정책(과 최적 가치 함수)에 점점 다가갈 수 있다.

신경망에 비유하자면, 강화학습의 '평가'는 손실 함수 역할이고, 강화학습의 '개선'은 경사 하강법이 수행하는 역할이다.

예를 들어 몬테 카를로 방법으로 강화학습을 수행한다고 해보자.
pi라는 정책이 있다면, 몬테 카를로 법을 이용해 V_pi를 얻을 수 있다.
그다음은 개선 단계이다. 개선 단계에서는 탐욕화를 수행하며, 다음 수식으로 표현할 수 있다.

계산 단계에서는 가치 함수의 값을 최대로 만드는 행동을 선택한다.

이를 탐욕화라고 한다.

Q 함수의 경우 위 식과 같이 Q 함수가 최댓값을 반환하는 행동을 선택한다.
이때 행동이 s 단 하나로 결정되므로 함수 mu(s)로 나타낼 수 있다.
또한 위 식의 아랫부분처럼 상태 가치 함수 V로도 나타낼 수 있다.

만약 가치 함수 V를 사용하며 정책을 개선한다면 식의 아랫 부분을 계산하면 될 것이다.
그런데 이 식에는 제약이 있다.
일반적인 강화학습 문제에서는 환경 모델, 즉 p와 r을 알 수 없다.
따라서 강화학습 모델에서는 위 식의 Q 함수로 구현된 부분을 사용해야 한다.

결국 Q 함수를 대상으로 개선할 경우 Q 함수를 '평가'해야 한다.
상태 가치 함수와 행동 가치 함수를 평가하는 방식을 비교해보자.

상태 가치 함수 평가

일반적인 방식

증분 방식

Q 함수 평가

일반적인 방식

증분 방식

이와 같이, Q 함수를 사용하던 상태가치 함수를 사용하던 평가와 개선이라는 과정을 거치는 것에는 변함이 없다.

'AI Repository > 기초 강화학습' 카테고리의 다른 글

[강화학습] 에이전트 구현 방법 - 분포 모델과 샘플 모델 (0)	2025.09.01
[강화학습] 시간차 학습(TD), SARSA, Q-Learning (0)	2025.09.01
[강화학습] Off-Policy, On-Policy, 중요도 샘플링 (0)	2025.08.31
[강화학습] 벨만 방정식 (0)	2025.08.29
[강화학습] 마르코프 결정 과정(MDP) (0)	2025.08.28

현재글[강화학습] 강화학습에서 최적 정책을 찾는 방법

Go Gradually - Repository

목표: 핀잇 실사용자 1명 이상 확보하기 盡人事待天命

rabbitmq, 오블완, 신경망, prefix sum, Greedy, DQN, math, 마틴 파울러, 도메인 이벤트, DRL, USACO Gold, 리팩터링, binary search, PS, 티스토리챌린지, LeetCode, 누적 합, DP, Python, Pub-Sub,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Go Gradually - Repository