AI Repository/기초 통계학 13

[정보 이론] Estimator - MLE, MAP, 수학적 추정

딥러닝을 공부하며 자연스레 최대 우도 추정(MLE)에 대해서 듣지만, 대부분 "최대 우도"까지만 엄밀한 정의를 설명하고 "추정"에 관해서는 다소 직관적인 방식으로 설명을 한다. 사실 Estimate, 특히 static estimation problem은 다음과 같이 "측정 벡터의 집합 z"를 함수로 하는 상수벡터 x의 추정기(estimator)를 설계하는 문제로 표현된다.이는 미지의 상수벡터 x를 어떤 성격으로 규정하느냐에 따라 다음과 같은 분류로 나뉜다.빈도주의(frequentist, non-bayesian) 접근 방법MLE베이지안(bayesian) 접근MAP둘은 상호 배타적이지 않으면, 둘을 모두 사용한 방법 또한 있지만, 둘의 개념을 명확히 잡기 위해서 보통 MLE와 MAP 개념을 자주 설명한다. ..

[정보 이론] KL Divergence (KL 발산) - 크로스 엔트로피를 쓰는 이유

어떤 데이터의 확률밀도함수 p(x)가 있다고 하자.이 함수를 정확히 알 수 없어서 이 함수를 근사적으로 추정한 확률밀도함수 q(x)를 사용한다고 가정하자.그러면 실제 분포인 p(x)로 얻을 수 있는 정보량과 근사적 분포인 q(x)로 얻을 수 있는 정보량은 다를 것이다.이때 둘 사이의 평균 정보량이 얼마나 차이가 나는지 계산한 것을 상대 엔트로피(relative entropy) 또는 KL 발산(Kullback-Leibler divergence)이라고 하며, 다음과 같이 정의한다.여기서 p(x)||q(x)는 p(x)를 기준으로 q(x)를 비교한다는 뜻이다.첫 번째 항은 근사 분포인 q(x)의 정보량을 실제 분포를 사용해 기댓값을 계산한 것(크로스 엔트로피)이다.두번째 항은 실제 분포 p(x)의 평균 정보량(..

[정보 이론] 정보량, 엔트로피와 Cross Entropy의 정의

딥러닝을 학습하며 "크로스 엔트로피 오차"를 아무렇지 않게 사용하고 있었다.그런데 최근 논문을 탐색하면서, "크로스 엔트로피"라는 용어의 정의를 생각보다 엄밀하게 규정해두지 않아 개념들이 잘 이해가 가지 않았다.따라서 다음과 같이 엔트로피의 엄밀한 정의에 대해 서술한다. 항상 일어나는 사건은 새로울 것이 없으므로 여기에서 얻을 수 있는 정보의 양은 매우 적다고 봐도 된다.또한 잘 일어날 것 같지 않는 사건에서는 빈번하게 일어나는 사건에서보다 얻을 수 있는 정보의 양이 더 많다고 봐도 될 것이다. 따라서 정보량은 사건의 발생 빈도의 영향을 받으므로, 확률적인 속성을 가지고 있고, 확률함수로 나타내는 것이 자연스러워진다. 이를 반영해 랜덤벡터 x의 정보량 h(x)를 다음과 같이 정의한다.여기서 p(x)는 x..

[개발자를 위한 필수 수학] 로지스틱 회귀와 분류

본 내용은 “개발자를 위한 필수 수학” 도서를 참고하여 작성되었습니다. 개발자를 위한 필수 수학 - 예스24개발자를 구원하는 실용 수학 안내서기초 수학부터 회귀 모델, 신경망 그리고 진로 조언까지 데이터 과학, 머신러닝, 통계학에서 탁월한 능력을 발휘하는 데 필요한 수학을 이해하고 여러분의www.yes24.com 시작하기 전에 - 오해 풀기로지스틱 회귀는 회귀 알고리즘이 아닌 분류 알고리즘이다.회귀임의의 실숫값을 예측하는 것분류범주 중 하나를 예측하는 것분류 알고리즘의 핵심은 결과를 분류 확률로 변환하는 것이다.임곗값을 이용해 이산형 값으로 변경도 가능하다.그럼 지금부터 분류 알고리즘인 로지스틱 회귀에 대해 알아보자.특징로지스틱 회귀는 구현하기 쉽고 이상치와 기타 데이터 문제에 상당히 탄력적이다.로지스..

[개발자를 위한 필수 수학] 선형회귀

본 내용은 “개발자를 위한 필수 수학” 도서를 참고하여 작성되었습니다. 개발자를 위한 필수 수학 - 예스24개발자를 구원하는 실용 수학 안내서기초 수학부터 회귀 모델, 신경망 그리고 진로 조언까지 데이터 과학, 머신러닝, 통계학에서 탁월한 능력을 발휘하는 데 필요한 수학을 이해하고 여러분의www.yes24.com 머신러닝의 분류머신러닝은 크게 분류하면 다음과 같이 정리할 수 있다.지도 학습정해진 목표가 존재하는 레이블을 보고 학습하는 계열의 학습을 의미한다.주로 회귀 작업, 분류 작업을 지도 학습으로 만들어낸다.비지도/준지도 학습정답/정해진 목표가 없는 데이터로부터 숨겨진 구조/분포/표현을 스스로 찾아내는 학습 방식이다.주로 군집화(clustering), 이상치 탐지(anomaly detection)에 ..

[개발자를 위한 필수 수학] 추론통계

본 내용은 “개발자를 위한 필수 수학” 도서를 참고하여 작성되었습니다. 개발자를 위한 필수 수학 - 예스24개발자를 구원하는 실용 수학 안내서기초 수학부터 회귀 모델, 신경망 그리고 진로 조언까지 데이터 과학, 머신러닝, 통계학에서 탁월한 능력을 발휘하는 데 필요한 수학을 이해하고 여러분의www.yes24.com시작하기 전, 다시 설명하는 "추론 통계"란?표본을 기반으로 더 큰 모집단에 대한 속성을 발견하는 것추론 통계는 분석하는 사람의 영향력이 매우 강하기 때문에, 잘못된 분석을 항상 경계해야 한다.중심 극한 정리균등 분포로 0과 1사이의 값들을 채취하고 평균을 구한다고 가정하자.해당 평균의 분포를 1000개의 값들을 통해 그려보면, 정규분포가 등장한다.모집단에서 충분히 많은 표본을 채취해 각각의 평균..

[개발자를 위한 필수 수학] 기술통계

본 내용은 “개발자를 위한 필수 수학” 도서를 참고하여 작성되었습니다. 개발자를 위한 필수 수학 - 예스24개발자를 구원하는 실용 수학 안내서기초 수학부터 회귀 모델, 신경망 그리고 진로 조언까지 데이터 과학, 머신러닝, 통계학에서 탁월한 능력을 발휘하는 데 필요한 수학을 이해하고 여러분의www.yes24.com 데이터를 바라보는 방법통계에 대한 학습을 시작하기 전에, 데이터는 언제나 편향될 수 있음을 인지하고, 다음 네가지를 반드시 파악해야 한다.데이터가 뭘 나타내는지데이터가 어떻게 생성되었는지데이터를 누가 생성했는지데이터가 포착하지 못하는 것은 무엇인지기술 통계와 추론 통계통계에는 크게 두가지 종류가 있다.기술통계추론통계기술통계란?기술통계란, 주어진 데이터를 요약하는 것으로, ****데이터를 설명하기..

[개발자를 위한 필수 수학] 확률의 기초

본 내용은 “개발자를 위한 필수 수학” 도서를 참고하여 작성되었습니다.확률이란?먼저, 확률을 나타내는 용어인 ‘확률’, ‘가능도’, ‘오즈’에 대해 알아보자.확률어떤 사건이 일어날 것이라고 믿는 정도미래 시점의 관점을 나타낸다.상호 배타적인 모든 확률의 합이 1이 되어야 한다.가능도이미 발생한 사건의 빈도를 측정하는 것과거 시점의 관점을 나타낸다.상호 배타적인 모든 가능도의 합이 1이 아닐 수 있다.확률과 가능도를 같은 의미로 쓰는 경우도 있는데, 둘은 엄연히 다른 종류이다.오즈'승산'승산이 있다 할때 그 승산을 의미한다.오즈가 2.0이면“어떤 사건이 일어날 확률이 일어나지 않을 확률보다 두배 더 높다”주로 도박이나 베팅에서 주관적인 믿음을 정량화하는데 사용한다.로그 오즈를 이용한 로지스틱 회귀, Bay..

[혼자 공부하는 데이터 분석] 통계의 기초 구성 요소와 Matplotlib의 기본 구조

통계평균데이터 값을 모두 더한 후 데이터 개수로 나눈 값.중앙값전체 데이터를 크기 순서대로 일렬로 늘어 놓았을 때 중간에 위치한 값.전체 데이터 개수가 짝수일 때는 중간의 두 데이터의 평균을 계산한다.분위수순서대로 나열된 데이터를 일정한 간격으로 나누는 기준점.예를 들어 사분위수는 데이터를 4등분하며, 25%, 50%, 75%에 위치한 값이다.백분위수는 데이터를 100개의 구간으로 나눈다.분산데이터가 평균에서 얼마나 멀리 퍼져 있는지를 알려주는 값.각 데이터를 평균에서 뺀 다음 제곱한 후 전체 데이터 개수로 나누어 구한다.표준편차분산의 제곱근.데이터의 분포 정도를 알려준다.표준편차는 원본 데이터와 단위가 같기 때문에 분산보다 해석하기 쉬워 자주 쓰인다.최빈값데이터에서 가장 많이 등장하는 값.숫자와 문자 ..

[혼자 공부하는 데이터 분석] 데이터 정제하기

본 내용은 혼자 공부하는 데이터 분석 교재를 참고하여 작성하였습니다. 혼자 공부하는 데이터 분석 with 파이썬 - 예스24혼자 해도 충분하다! 1:1 과외하듯 배우는 데이터 분석 자습서이 책은 독학으로 데이터 분석을 배우는 입문자가 ‘꼭 필요한 내용을 제대로 학습’할 수 있도록 구성했습니다. 뭘 모르는지조차www.yes24.com 학습 목표데이터프레임에서 불필요한 행과 열을 삭제하거나, 데이터값을 바꾸는 방법을 배워보자.정규 표현식을 사용해 잘못된 값을 고치거나 누락된 값이 있는 경우 웹 스크래핑하여 얻은 값으로 채워보자.데이터 정제란?데이터 정제란, 데이터에서 손상되거나 부정확한 부분을 수정하고, 불필요한 데이터를 삭제하거나 불완전한 값을 교체하는 등의 작업을 의미한다.데이터 정제는 원 데이터를 좀 ..