분산 2

[강화학습] A2C

지난 글에선 REINFORCE 알고리즘을 공부했다.이 알고리즘은 간단한 CartPole 예제에는 잘 작동했지만, 좀 더 복잡한 환경의 강화학습에는 그리 잘 통과하지 않는다. 한편, DQN의 경우 이산적인 동작 공간에서 상당히 효과적이지만, 입실론-그리디 정책같은 개별적인 정책 함수가 필요하다는 단점이 있다. 이번 글에서는 REINFORCE의 장점과 DQN의 장점을 합친 actor-critic(행위자-비평자)라는 알고리즘을 소개한다.이 모델은 여러 문제 영역에서 최고 수준의 성과를 낸 바 있다.REINFORCE 알고리즘은 일반적으로 일회적 알고리즘(에피소딕, episodic algorithm)으로 구현된다.이는 에이전트가 하나의 에피소드 전체를 끝낸 후에야 그 에피소드에서 수집한 보상들로 모델의 매개변수들..

[혼자 공부하는 데이터 분석] 통계의 기초 구성 요소와 Matplotlib의 기본 구조

통계평균데이터 값을 모두 더한 후 데이터 개수로 나눈 값.중앙값전체 데이터를 크기 순서대로 일렬로 늘어 놓았을 때 중간에 위치한 값.전체 데이터 개수가 짝수일 때는 중간의 두 데이터의 평균을 계산한다.분위수순서대로 나열된 데이터를 일정한 간격으로 나누는 기준점.예를 들어 사분위수는 데이터를 4등분하며, 25%, 50%, 75%에 위치한 값이다.백분위수는 데이터를 100개의 구간으로 나눈다.분산데이터가 평균에서 얼마나 멀리 퍼져 있는지를 알려주는 값.각 데이터를 평균에서 뺀 다음 제곱한 후 전체 데이터 개수로 나누어 구한다.표준편차분산의 제곱근.데이터의 분포 정도를 알려준다.표준편차는 원본 데이터와 단위가 같기 때문에 분산보다 해석하기 쉬워 자주 쓰인다.최빈값데이터에서 가장 많이 등장하는 값.숫자와 문자 ..