CS Repository/기초 통계학

[개발자를 위한 필수 수학] 확률의 기초

조금씩 차근차근 2025. 7. 23. 21:30

본 내용은 “개발자를 위한 필수 수학” 도서를 참고하여 작성되었습니다.

확률이란?

먼저, 확률을 나타내는 용어인 ‘확률’, ‘가능도’, ‘오즈’에 대해 알아보자.

확률

  • 어떤 사건이 일어날 것이라고 믿는 정도
  • 미래 시점의 관점을 나타낸다.
  • 상호 배타적인 모든 확률의 합이 1이 되어야 한다.

가능도

  • 이미 발생한 사건의 빈도를 측정하는 것
  • 과거 시점의 관점을 나타낸다.
  • 상호 배타적인 모든 가능도의 합이 1이 아닐 수 있다.

확률과 가능도를 같은 의미로 쓰는 경우도 있는데, 둘은 엄연히 다른 종류이다.

오즈

  • '승산'
    • 승산이 있다 할때 그 승산을 의미한다.
  • 오즈가 2.0이면
    • “어떤 사건이 일어날 확률이 일어나지 않을 확률보다 두배 더 높다”
  • 주로 도박이나 베팅에서 주관적인 믿음을 정량화하는데 사용한다.
  • 로그 오즈를 이용한 로지스틱 회귀, Bayes Factor 를 포함한 베이즈 통계에서 사용한다.

오즈를 확률로 변환하는 방법.

결합 확률의 계산 방법

  • 주변 확률
    • 단일 사건 X가 발생할 가능성
  • 결합 확률
    • 두 사건이 함께 발생할 확률
    • 결합 확률을 AND 연산자로 생각하면 편하다.
  • 독립 사건의 경우

조건부 확률

  • P(A|B): 사건 B가 발생했을 때 사건 A가 발생할 확률
  • P(A GIVEN B) 라고도 나타낸다.

주요 정리

확률의 곱셈 정리

A와 B 두 사건이 독립이라면 다음 식을 만족한다.

확률의 덧셈 정리

포함 배제의 원리를 떠올리면 좋다.

베이즈 정리

주로 조건부 확률을 뒤집을 때 사용한다.

확률 분포

확률분포는 왜 필요한걸까? 예제로 이항 분포와 베타 분포를 학습해보며 확률 분포의 의의를 알아보자.

이항 분포

  • 동전을 10번 던졌는데 앞면이 8개 나왔다고, 동전 던지기의 확률이 80%인 것은 아니다.
  • 그렇다면 기본 확률이 50%일 때 80% 성공에 대한 가능도는 어떻게 결정할까?
  • 이때 등장하는 개념이 이항분포이다.
  • 확률이 p일 때, n번의 시도 중 k번이 성공할 가능성을 나타낸다.

확률이 90%인 사건의 이항 분포

베타 분포

성공 8, 실패 2회 발생 시의 베타 분포

베타 분포란, 결과를 보고 확률을 예측하는 분포이다. 베타 분포는 연속확률분포로, 적분값이 확률이 된다.

주어진 x값까지의 면적을 계산하는 함수를 누적 분포 함수(CDF, cumulative distribution function)라고 한다.

결국 확률 분포란?

"제한된 표본 집합으로 사건이 발생할 확률과 발생하지 않을 확률을 측정하는 도구" 라고 정의할 수 있을 듯 하다.

확률 분포를 이야기하는 법에 대해 익숙해져야 할 듯