상태 가치 함수 2

[강화학습] 벨만 방정식

이번 내용은 지난 장에서 다루지 못했던 "확률적 MDP"의 수식 전개이다.벨만-포드 알고리즘과 다이나믹 프로그래밍을 만든 수학자 벨만의 또다른 업적, 벨만 방정식에 대해 알아보자.벨만 방정식은 MDP에서 성립하는 가장 중요한 방정식이며, 많은 강화 학습 알고리즘에 중요한 기초를 제공한다.사실 순수한 벨만 방정식의 경우, 실용적인 문제에서는 계산량이 너무 많아져서 적용하기 쉽지 않다.하지만 선형 회귀/로지스틱 회귀에서 딥러닝이 발전했듯이,벨만 방정식의 도출 과정이 강화학습의 기초(즉, 새로운 기법의 적용 가능성 탐색/연구를 위한 기초)가 되기 때문에, 정확히 인지하고 넘어가는 것이 중요하다.참고로, 좀 어렵다...기호가 이것저것 많이 등장해서 읽는데 시간이 좀 걸릴 것이다.익숙해지는 수밖에 없으니, 반복해..

[강화학습] 마르코프 결정 과정(MDP)

벤디트 문제에서는 에이전트가 어떤 행동을 취하든 다음에 도전할 문제의 설정은 바뀌지 않았다.그런데 세상의 대부분의 문제는 에이전트의 행동에 따라 상황이 시시각각 변한다. 지금부터 변화하는 상태에 따른 최선의 결정을 돕는 도구, 마르코프 결정 과정에 대해 알아보자.강화 학습은 분명 스스로 정책을 학습하는 도구이지만, 이와 같이 해석적으로 문제의 해를 증명하는 과정 또한 중요하다.결국 문제를 잘게 쪼개 해석적으로 문제를 풀고, 이를 통해 큰 문제의 논리적 완결성을 증명해야 하기 때문이다.이번 장은 아래와 같은 순서로 진행할 것이다.먼저, MDP에서 쓰이는 용어들을 수식으로 정리할 것이다.그 다음, MDP의 목표를 정의한다.마지막으로, 간단한 MDP 문제를 풀며 목표를 달성해본다.마르코프 결정 과정(MDP)이..