이번 내용은 지난 장에서 다루지 못했던 "확률적 MDP"의 수식 전개이다.벨만-포드 알고리즘과 다이나믹 프로그래밍을 만든 수학자 벨만의 또다른 업적, 벨만 방정식에 대해 알아보자.벨만 방정식은 MDP에서 성립하는 가장 중요한 방정식이며, 많은 강화 학습 알고리즘에 중요한 기초를 제공한다.사실 순수한 벨만 방정식의 경우, 실용적인 문제에서는 계산량이 너무 많아져서 적용하기 쉽지 않다.하지만 선형 회귀/로지스틱 회귀에서 딥러닝이 발전했듯이,벨만 방정식의 도출 과정이 강화학습의 기초(즉, 새로운 기법의 적용 가능성 탐색/연구를 위한 기초)가 되기 때문에, 정확히 인지하고 넘어가는 것이 중요하다.참고로, 좀 어렵다...기호가 이것저것 많이 등장해서 읽는데 시간이 좀 걸릴 것이다.익숙해지는 수밖에 없으니, 반복해..