편향 2

[강화학습] A2C

지난 글에선 REINFORCE 알고리즘을 공부했다.이 알고리즘은 간단한 CartPole 예제에는 잘 작동했지만, 좀 더 복잡한 환경의 강화학습에는 그리 잘 통과하지 않는다. 한편, DQN의 경우 이산적인 동작 공간에서 상당히 효과적이지만, 입실론-그리디 정책같은 개별적인 정책 함수가 필요하다는 단점이 있다. 이번 글에서는 REINFORCE의 장점과 DQN의 장점을 합친 actor-critic(행위자-비평자)라는 알고리즘을 소개한다.이 모델은 여러 문제 영역에서 최고 수준의 성과를 낸 바 있다.REINFORCE 알고리즘은 일반적으로 일회적 알고리즘(에피소딕, episodic algorithm)으로 구현된다.이는 에이전트가 하나의 에피소드 전체를 끝낸 후에야 그 에피소드에서 수집한 보상들로 모델의 매개변수들..

[개발자를 위한 필수 수학] 기술통계

본 내용은 “개발자를 위한 필수 수학” 도서를 참고하여 작성되었습니다. 개발자를 위한 필수 수학 - 예스24개발자를 구원하는 실용 수학 안내서기초 수학부터 회귀 모델, 신경망 그리고 진로 조언까지 데이터 과학, 머신러닝, 통계학에서 탁월한 능력을 발휘하는 데 필요한 수학을 이해하고 여러분의www.yes24.com 데이터를 바라보는 방법통계에 대한 학습을 시작하기 전에, 데이터는 언제나 편향될 수 있음을 인지하고, 다음 네가지를 반드시 파악해야 한다.데이터가 뭘 나타내는지데이터가 어떻게 생성되었는지데이터를 누가 생성했는지데이터가 포착하지 못하는 것은 무엇인지기술 통계와 추론 통계통계에는 크게 두가지 종류가 있다.기술통계추론통계기술통계란?기술통계란, 주어진 데이터를 요약하는 것으로, ****데이터를 설명하기..