CS Repository/기초 통계학

[개발자를 위한 필수 수학] 기술통계

조금씩 차근차근 2025. 7. 24. 12:57

본 내용은 “개발자를 위한 필수 수학” 도서를 참고하여 작성되었습니다.

 

개발자를 위한 필수 수학 - 예스24

개발자를 구원하는 실용 수학 안내서기초 수학부터 회귀 모델, 신경망 그리고 진로 조언까지 데이터 과학, 머신러닝, 통계학에서 탁월한 능력을 발휘하는 데 필요한 수학을 이해하고 여러분의

www.yes24.com

 

데이터를 바라보는 방법

통계에 대한 학습을 시작하기 전에, 데이터는 언제나 편향될 수 있음을 인지하고, 다음 네가지를 반드시 파악해야 한다.

  • 데이터가 뭘 나타내는지
  • 데이터가 어떻게 생성되었는지
  • 데이터를 누가 생성했는지
  • 데이터가 포착하지 못하는 것은 무엇인지

기술 통계와 추론 통계

통계에는 크게 두가지 종류가 있다.

  • 기술통계
  • 추론통계

기술통계란?

기술통계란, 주어진 데이터를 요약하는 것으로, ****데이터를 설명하기 위한 도구를 의미한다.

주요 구성 요소로는 평균, 중앙값, 모드, 차트 등이 있다.

추론통계란?

추론통계란, 표본을 기반으로 더 큰 모집단에 대한 속성을 발견하는 것을 의미한다.

주요 내용으로는 중심극한정리, 신뢰구간, p-value, 가설 검정 등이 있다.

모집단, 표본, 편향

기술통계와 추론통계에 들어가기 전, 다음 세가지에 대해 알아보도록 하자.

모집단

  • 정보를 얻고자 하는 관심 대상의 전체집합
  • 모집단 정의에는 경계가 반드시 정의되어야 한다.
  • 이러한 경계 중 일부는 광범위하거나, 대규모 그룹을 담는다.
  • 모집단을 정의하는 방법은 연구하려는 대상에 따라 달라진다.

표본

  • 모집단의 하위 집합
  • 이상적으로는 무작위하고 편향되지 않은 집합이다.
  • 가능한 무작위하게 표본을 추출해야 한다.

편향

편향이란, 특정 그룹이 표본에 과도하게 수집된 상태를 의미한다.

주요 편향의 예시에는 다음 세가지를 들 수 있다.

  • 확증 편향
    • 자신의 신념을 뒷받침하는 데이터만 수집하는 것
  • 자기 선택 편향
    • 특정 유형의 피험자가 실험에 자신을 포함시키는 것
    • 예시
      • 특정 항공사의 비행기에 탑승한 고객을 대상으로 모든 항공사의 고객 만족도 순위를 매기는 것
        • 고객 중 상당수는 재이용 고객일 가능성이 높다.
  • 생존 편향
    • 살아 있거나 살아남은 피험자만 포착하는 반면, 사망한 피험자는 고려하지 않는 것
    • 예시
      • 스티브 잡스가 다혈질이라고, 다혈질인 리더가 위대한 기업을 만드는 것은 아니다.
        • 다혈질인 기업가의 실패 사례가 반영되지 않음

기술 통계

평균

평균을 이야기할 때는 주로 표본평균과 모집단 평균을 구분해서 이야기한다.

  • 표본 평균

표본평균 공식

표본평균은 위와 같이 나타내며, x-bar 라고 읽는다.

  • 모집단 평균

모집단 평균 공식

모집단 평균은 위와 같이 나타내며, 그리스 문자인 “뮤(μ)” 라고 읽는다.

  • 가중평균

일반적으로 말하는 평균은 모든 값들에 동일한 가중치가 부여된 가중평균을 의미한다.

평균은 실제로 각 값들에 가중치가 부여될 수 있다.

중앙값

  • 전체 데이터를 크기 순서대로 일렬로 늘어 놓았을 때 중간에 위치한 값을 의미한다.
  • 전체 데이터 개수가 짝수일 때는 중간의 두 데이터의 평균을 계산한다.

분위수

  • 순서대로 나열된 데이터를 일정한 간격으로 나누는 기준점.
  • 예를 들어 사분위수는 데이터를 4등분하며, 25%, 50%, 75%에 위치한 값이다.
  • 백분위수는 데이터를 100개의 구간으로 나눈다.

모드

  • 가장 자주 발생하는 값 집합을 의미한다.
  • 두 번 이상 발생하는 값이 없으면 모드가 없는 것이다.
  • 두 값이 동일한 양의 빈도로 발생하면 이 데이터셋은 '바이모달'(bimodal)로 간주된다.

모드를 구하는 파이썬 코드

분산과 표준 편차

  • 분산
    • 데이터가 평균에서 얼마나 멀리 퍼져 있는지를 알려주는 값.
    • 각 데이터를 평균에서 뺀 다음 제곱한 후 전체 데이터 개수로 나누어 구한다.
  • 표준편차
    • 분산의 제곱근.
    • 데이터의 분포 정도를 알려준다.
    • 표준편차는 원본 데이터와 단위가 같기 때문에 분산보다 해석하기 쉬워 자주 쓰인다.

모집단의 분산과 표준편차

  • 분산

  • 표준편차

표본집단의 분산과 표준편차

  • 분산

  • 표준편차

표본집단의 분모는 모집단과 달리 n-1로 나누어지는데, 이를 “베셀 보정”이라고 한다.

  • 베셀 보정이 있는 이유(링크 참고)

정규 분포

가우스 분포라고도 알려진 정규 분포는 자연에서 가장 많이 보이는 분포의 형태로, 통계학의 꽃이라고 불린다.

정규 분포의 특징

  • 정규 분포는 대칭이다.
  • 대부분의 질량은 평균 부근에 있다.
  • 퍼짐 정도가 있으며, 표준 편차로 이를 나타낸다.
  • 꼬리는 가능성이 가장 낮은 부분이며 0에 수렴하지만 0이 되지는 않는다.
  • 자연과 일상생활에서 일어나는 많은 현상과 유사하다.
    • 중심 극한 정리 덕분에 정규분포가 아닌 문제에도 일반화가 가능하다.

PDF란?

  • 확률 밀도 함수(probability density function)
  • 특정 연속 확률 변수를 그리는 함수를 의미한다.

참고) 확률 변수는 함수이다.

  • 함수 전체를 X라 부르고,
  • 개별 실현값 X(ω)를 관찰하면 숫자처럼 다루기 때문에 전통적으로 “변수”라고 칭한다.
  • 이 점에서 프로그래밍 언어의 변수와 달리, 확률변수는 객체 전체가 함수라는 사실을 잊기 쉽다.

정규분포의 확률 밀도 함수

  • 여기서 중요한 것은, 평균과 표준 편차를 위한 매개변수가 있고, 지정한 값의 가능도를 조회하기 위한 매개변수 x도 존재한다는 것이다.

CDF란?

  • 누적 분포 함수(cumulative distribution function)
  • 주어진 분포에 대해, 주어진 x값까지의 면적을 계산하는 함수
  • 쉽게 말해, PDF의 적분값을 구현한 함수라고 생각하면 된다.

역 CDF(PPF)

역 CDF는 말 그대로 CDF의 역함수로, 주어진 확률를 통해 해당하는 x값을 찾을 때 사용할 수 있다.

  • 상위 5%의 x값은 무엇인가?

예를들어, 골든 리트리버의 95%가 속하는 몸무게를 찾고 싶을 때 해당 함수를 찾을 수도 있다.

혹은, 난수 생성에도 가능하다.

  • 0~1 사이의 난수를 임의로 생성하고
  • 해당 값을 역 CDF 함수에 넣으면 원하는 x값이 나온다.

z-score

평균이 0이고 표준 편차가 1이 되도록 정규 분포의 크기를 재조정할 때, 이렇게 만들어진 정규분포를 표준 정규 분포라고 한다.

표준 정규 분포에서는 모든 x값을 표준 편차, 즉 z score로 표현한다는 점이 중요하다.

예시

  • 서로 다른 동네에 있는 주택 두 채가 있다고 하자.
  • A 동네의 평균 주택 가격은 140,000 달러이고, 표준편차는 3,000이다.
  • B동네의 평균 주택 가격은 800,000 달러이고, 표준 편차는 10,000달러이다.
  • 각 동네에 있는 주택에 대하여
    • A동네의 집 A의 가치는 150,000 달러
    • B동네의 집 B의 가치는 815,000 달러
  • 각 동네의 평균 가격에 비해 어느 집이 더 비쌀까?
    • z-score 공식 사용
    • z_a = 10/3
    • z_b = 3/2
  • 집 A가 B에 비해 각 동네의 평균보다 훨씬 비싸다.

변동 계수

변동 계수는 분포의 퍼짐 정도를 측정할 수 있는 도구이다.

  • 표준편차와 평균은 같은 단위를 쓴다.
    • 따라서 둘을 나눔으로써 단위를 제거하고, 무차원화 시킨다.
  • 변동 계수는 평균으로 나누기에, 평균 1 Unit 당 편차가 갖는 변동성을 표현한다.

변동 계수는 표준 편차를 평균으로 나눠 계산한다. 따라서, 값이 클 수록 많이 퍼져있고 변동성이 높다고 할 수 있다.