[개발자를 위한 필수 수학] 추론통계
본 내용은 “개발자를 위한 필수 수학” 도서를 참고하여 작성되었습니다.
개발자를 위한 필수 수학 - 예스24
개발자를 구원하는 실용 수학 안내서기초 수학부터 회귀 모델, 신경망 그리고 진로 조언까지 데이터 과학, 머신러닝, 통계학에서 탁월한 능력을 발휘하는 데 필요한 수학을 이해하고 여러분의
www.yes24.com
시작하기 전, 다시 설명하는 "추론 통계"란?
표본을 기반으로 더 큰 모집단에 대한 속성을 발견하는 것
추론 통계는 분석하는 사람의 영향력이 매우 강하기 때문에, 잘못된 분석을 항상 경계해야 한다.
중심 극한 정리
균등 분포로 0과 1사이의 값들을 채취하고 평균을 구한다고 가정하자.
해당 평균의 분포를 1000개의 값들을 통해 그려보면, 정규분포가 등장한다.
모집단에서 충분히 많은 표본을 채취해 각각의 평균을 계산하고, 이를 하나의 분포로 그리면 "중심 극한 정리" 현상이 나타난다.
중심 극한 정리
중심 극한 정리는 크게 다음 네가지를 이야기할 수 있다.
- 표본 평균의 평균은 모집단 평균과 같다.
- 모집단이 정규 분포이면 표본 평균도 정규 분포가 된다.
- 모집단이 정규 분포가 아니지만 표본 크기가 30보다 큰 경우 표본 평균은 대략적으로 정규 분포를 따른다.
- 표본 평균의 표준 편차는 모집단 표준 편차를 n의 제곱근으로 나눈 값과 같다.
표본 크기가 31 미만인 경우, 정규 분포가 아닌 t분포를 사용해야 한다. t분포는 정규분포에 비해 "꼬리가 더 뚱뚱"하다.
교과서적인 표본의 크기는 31이지만, 기본 확률 분포가 불확실하다면 표본을 더 많이 확보해라.
신뢰 구간
신뢰 구간은, 표본 평균(또는 다른 파라미터)이 모집단 평균의 특정 범위에 속한다고 얼마나 확실하게 믿는지를 보여주는 정도를 말한다.
이렇게 보면 추상적으로 느껴지니, 예시로 깊게 이해해보자.
표본 평균이 64.408이고 표본 표준 편차가 2.05인 골든 리트리버 31마리의 표본을 기준으로 모집단 평균이 63.686에서 65.1296 사이에 있다고 95% 확신한다.
위 문장을 증명하는 방법은 뭘까?
신뢰 수준(LOC, Level Of Confidence)
신뢰수준(LOC)는, 모집단 평균 범위에 대한 확률을 의미한다.
“표준 정규 분포에 대해서 신뢰 수준을 95% 정도로 갖고 싶다”고 하자. 이 범위를 어떻게 계산할까?
해당 범위를 계산하기 위해선, 중앙의 95% 확률에 해당하는 임계 z값(ciritical z-value/z-score)을 구해야 한다.
- 정규분포는 기본적으로 대칭이니, 각 꼬리에서 2.5% 위치의 값을 찾아야 한다.
- 즉, 면적 0.025와 0.975에 대한 x값을 찾아야 한다.
따라서 역 CDF(PPF)를 사용하자.
허용 오차
허용 오차는 해당 신뢰 수준에서 모집단 평균을 포함하는 표본 평균의 범위를 의미한다.
위 값을 계산하게 되면, 다음과 같은 결과가 나온다.
따라서 아래 가설을 참이라고 이야기할 수 있게 되었다!
표본 평균이 64.408이고 표본 표준 편차가 2.05인 골든 리트리버 31마리의 표본을 기준으로 모집단 평균이 63.686에서 65.1296 사이에 있다고 95% 확신한다.
신뢰 구간
결국 신뢰구간은 표본 평균(또는 다른 파라미터)이 모집단 평균의 특정 범위에 속한다고 얼마나 확실하게 믿는지를 보여주는 정도를 말한다.
- 신뢰 수준과 허용 오차가 정의될 때, 신뢰 구간이 정의 가능하다.
p-value
p-value 란 통계적 가설검정에서 귀무가설이 참이라는 전제 하에, 관찰된 결과와 동등하거나 더 극단적인 결과가 발생할 확률을 나타내는 값을 의미한다.
쉽게 말해서, 이것보다 더한 상황이 얼마나 자주 발생할지를 이야기하는 확률을 의미한다.
예시를 통해 좀 더 자세히 알아보자.
1925년 수학자 로널드 피셔는 한 파티에 참석했다. 그의 동료 중 한 명인 뮤리엘 브리스틀은 차를 맛보는 것만으로 우유보다 먼저 차를 부었는지 알 수 있다고 주장했다. 이 주장에 흥미를 느낀 로널드는 그 자리에서 실험을 시작했다.
그는 여덟 잔의 차를 준비해 네 잔에는 우유를 먼저 따르고 나머지 네 잔에는 차를 먼저 따랐다. 그런 다음 뮤리엘에게 찻잔을 건네며 우유와 차를 따른 순서를 물었다. 놀랍게도 그녀는 모두 정확하게 식별했다. 우연히 이런 일이 일어날 확률은 70분의 1, 즉 1.4%이다.
여기서 등장한 1.4% 가 p-value이다.
- 귀무가설
- 뮤리엘이 우연으로 모든 차의 제작 순서를 맞추었다.
- 대립가설
- 뮤리엘이 한 개 이상의 차의 제작 순서를 직접 맞추었다.
귀무가설
좀 더 형식적으로 말하자면, 차이가 없거나 의미있는 차이가 없는 경우의 가설을 의미한다.
이것이 맞거나 맞지 않다는 통계학적 증거를 통해 증명하려는 가설을 말한다.
대립가설
좀 더 형식적으로 말하자면, 독립변수와 결과변수 사이에 어떤 특정한 관련이 있다는 가설을 의미한다.
유의 확률, p-value란?
p-value란, 귀무가설을 가정하였을 때 표본 이상으로 극단적인 결과를 얻을 확률을 말한다.
위 예제에선 해당 작업을 한번 더 수행해서, 다시 모두 맞출 확률(1.4%)을 의미한다.
일반적으로 통계적 유의성의 임계값은 5%이하의 p-value로 한다.
주의: "극단적"의 정의에 따라 유의 확률의 정의가 달라진다.
가설 검정을 직접 수행해보며, 유의 확률의 정의를 좀 더 자세히 알아보자.
가설 검정
과거 연구에 따르면, 감기에 걸린 사람들의 회복 기간은 평균 회복 기간이 18일이고 표준편차가 1.5일이며 정규분포를 따른다고 한다.
위 코드에 따라서, 15일에서 21일 사이에 회복될 확률은 95%이다.
따라서 회복에 21일 이상 걸릴 확률은 2.5%, 15일 미만이 걸릴 확률은 2.5%라는 것을 유추 가능하다.
이제 40명으로 구성된 테스트 그룹에 실험용 신약을 투여한 결과, 감기에서 회복하는 데 평균 16일이 걸렸다고 가정하자.
- 과연 약물이 영향을 미쳤을까?
- 대립가설
- 아니면 약물이 효과가 없었고 16일간의 회복은 테스트 그룹에서 일어난 우연의 일치였을까?
- 귀무가설
- (표준오차는 적용하지 않는다.)
이를 검정할 수 있는 방법에는 다음 두가지가 있다.
- 단측 검정
- 양측 검정
단측 검정
단측 검정은 부등식을 이용해 한쪽 꼬리에서만 귀무 가설과 대립 가설을 설정하는 방식이다.
이 문제에서는 다음과 같이 가설을 세울 것이다.
계산 결과, 누적 면적 5%에 해당하는 x 값은 15.53 < 16이므로 귀무가설의 기각 영역에 속하지 않는다.
p-value 기준으로 검증하면?
p-value = 9% > 5% 이므로 귀무가설을 기각하지 못한다.
양측 검정
양측 검정은 '같음'과 '같지 않음' 구조로 대립 가설을 구성하는 방식이다.
보통 양측 검정을 사용하는 것이 더 안전하고 나은 방법이다.
계산부터 해보고 그 이유를 알아보자
이 문제에서는 다음과 같이 가설을 세울 것이다. 즉, 통계적 유의성 임곗값을 한쪽 꼬리가 아닌 양쪽 꼬리에 나눈다는 뜻이다. 5%의 통계적 유의성을 테스트하는 경우, 이를 분할해 각 꼬리에 2.5%씩 절반을 부여한다.
면적 2.5%에 해당하는 x값은 15 < 16 < 21 이므로 귀무가설의 기각 영역에 속하지 않는다.
t 분포: 소규모 표본 처리
t 분포란?
- 정규분포와 유사하지만 더 많은 분산과 불확실성을 반영하기 위한 분포이다.
- 신뢰 구간을 계산하거나 가설 검정을 수행할 때 표본의 크기가 30 이하인 경우 사용한다.
- t 분포의 경우, 자유도가 높을 수록 정규분포의 형태를 띄게 된다.