[정보 이론] Estimator - MLE, MAP, 수학적 추정
딥러닝을 공부하며 자연스레 최대 우도 추정(MLE)에 대해서 듣지만, 대부분 "최대 우도"까지만 엄밀한 정의를 설명하고 "추정"에 관해서는 다소 직관적인 방식으로 설명을 한다.
사실 Estimate, 특히 static estimation problem은 다음과 같이 "측정 벡터의 집합 z"를 함수로 하는 상수벡터 x의 추정기(estimator)를 설계하는 문제로 표현된다.
이는 미지의 상수벡터 x를 어떤 성격으로 규정하느냐에 따라 다음과 같은 분류로 나뉜다.
- 빈도주의(frequentist, non-bayesian) 접근 방법
- MLE
- 베이지안(bayesian) 접근
- MAP
둘은 상호 배타적이지 않으면, 둘을 모두 사용한 방법 또한 있지만, 둘의 개념을 명확히 잡기 위해서 보통 MLE와 MAP 개념을 자주 설명한다.
따라서 MAP와 MLE에 대해 알아보도록 하자.
MAP Estimator, 최대 사후 추정기 (Maximum A Posteriori)
베이즈 정리에 따르면 측정 벡터 z를 조건으로 하는 미지의 랜덤벡터 x의 확률밀도함수는 다음과 같이 주어진다.
- p(x)는 벡터 z가 측정되기 전인 사전에 알고있는 x의 확률밀도함수이다.
- p(z)는 측정 벡터 z의 확률밀도함수로서 측정 과정의 확률 정보를 나타낸다.
- p(z|x)는 x를 조건으로 하는 z의 조건부 확률밀도함수로서 x에 따라 특정 측정 벡터 z가 얼마나 자주 나타내는가를 나타내는 우도함수(likelihood function)다.
- p(x|z)는 z가 측정된 후 (a posteriori)에 주어진 x의 조건부 확률밀도함수다.
최대 사후 추정기는 z를 조건으로 하는 미지의 랜덤벡터 x의 조건부 확률밀도함수가 최댓값일 때의 x의 값(mode)을 x의 추정값으로 정의한다.
mode는 쉽게 말해 확률밀도함수의 봉우리를 의미한다.
즉 괄호 밖의 정의와 큰 뜻의 차이가 없다.
MLE, 최대 우도 추정기 (Maximum likelihood Estimator)
비-베이즈 추정기(빈도주의 추정기)는 추정하고자 하는 벡터 x를 미지의 확정된 값으로 본다.
측정 벡터 z는 벡터 x 값에 따라 달라질 것이므로 z의 확률밀도함수는 미지의 벡터 x의 함수가 된다.
즉, p(z(x))로 표기할 수 있다.
최대 빈도 추정기는 측정 벡터 z의 확률밀도함수를 최대로 하는 x의 값을 추정값으로 정의한다.
이를 방금 위에서 봤던 MAP 식과 비교해보면, MLE는 확률밀도함수를 최대로 하는 값을 추정값으로 정의한다는 점에서 MAP의 비-베이즈 버전임을 알 수 있다.
여기서 p(z|x)는 x를 조건으로 하는 z의 조건부 확률밀도함수로서 x에 따라 특정 측정 벡터 z가 얼마나 자주 나타나는가를 나타내는 빈도함수다.