조건부 확률 2

[강화학습] Policy Gradient Method

우리가 기존에 알고있던 DQN은 Q 함수를 하나의 신경망으로 근사하는 "정책 외 알고리즘"이다.즉, DQN은 행동을 했을 때 얻을 수 있는 기대 보상을 기준으로 판단하는 알고리즘이다.QN이 예측한 Q value들은 특정 정책에 따라 다음 동작을 선택하는데 쓰인다.동작을 선택하는 정책은 다양한데, 현재 우리는 입실론-그리디 정책 정도만 학습했다.그 외에도 Q value들에 소프트맥스 층을 적용해서 하나의 동작을 선택하는 등 다양한 정책이 가능하다. 그런데 신경망과 정책을 따로 두고 동작을 선택하는 대신, 신경망이 직접 동작을 선택하도록 훈련하면 어떨까?이 경우 신경망은 정책 함수(policy function)의 역할을 한다.이런 신경망을 정책 신경망, 줄여서 정책망(policy network)이라고 부른다..

[개발자를 위한 필수 수학] 확률의 기초

본 내용은 “개발자를 위한 필수 수학” 도서를 참고하여 작성되었습니다.확률이란?먼저, 확률을 나타내는 용어인 ‘확률’, ‘가능도’, ‘오즈’에 대해 알아보자.확률어떤 사건이 일어날 것이라고 믿는 정도미래 시점의 관점을 나타낸다.상호 배타적인 모든 확률의 합이 1이 되어야 한다.가능도이미 발생한 사건의 빈도를 측정하는 것과거 시점의 관점을 나타낸다.상호 배타적인 모든 가능도의 합이 1이 아닐 수 있다.확률과 가능도를 같은 의미로 쓰는 경우도 있는데, 둘은 엄연히 다른 종류이다.오즈'승산'승산이 있다 할때 그 승산을 의미한다.오즈가 2.0이면“어떤 사건이 일어날 확률이 일어나지 않을 확률보다 두배 더 높다”주로 도박이나 베팅에서 주관적인 믿음을 정량화하는데 사용한다.로그 오즈를 이용한 로지스틱 회귀, Bay..