2025/09/24 4

[정보 이론] Estimator - MLE, MAP, 수학적 추정

딥러닝을 공부하며 자연스레 최대 우도 추정(MLE)에 대해서 듣지만, 대부분 "최대 우도"까지만 엄밀한 정의를 설명하고 "추정"에 관해서는 다소 직관적인 방식으로 설명을 한다. 사실 Estimate, 특히 static estimation problem은 다음과 같이 "측정 벡터의 집합 z"를 함수로 하는 상수벡터 x의 추정기(estimator)를 설계하는 문제로 표현된다.이는 미지의 상수벡터 x를 어떤 성격으로 규정하느냐에 따라 다음과 같은 분류로 나뉜다.빈도주의(frequentist, non-bayesian) 접근 방법MLE베이지안(bayesian) 접근MAP둘은 상호 배타적이지 않으면, 둘을 모두 사용한 방법 또한 있지만, 둘의 개념을 명확히 잡기 위해서 보통 MLE와 MAP 개념을 자주 설명한다. ..

[정보 이론] KL Divergence (KL 발산) - 크로스 엔트로피를 쓰는 이유

어떤 데이터의 확률밀도함수 p(x)가 있다고 하자.이 함수를 정확히 알 수 없어서 이 함수를 근사적으로 추정한 확률밀도함수 q(x)를 사용한다고 가정하자.그러면 실제 분포인 p(x)로 얻을 수 있는 정보량과 근사적 분포인 q(x)로 얻을 수 있는 정보량은 다를 것이다.이때 둘 사이의 평균 정보량이 얼마나 차이가 나는지 계산한 것을 상대 엔트로피(relative entropy) 또는 KL 발산(Kullback-Leibler divergence)이라고 하며, 다음과 같이 정의한다.여기서 p(x)||q(x)는 p(x)를 기준으로 q(x)를 비교한다는 뜻이다.첫 번째 항은 근사 분포인 q(x)의 정보량을 실제 분포를 사용해 기댓값을 계산한 것(크로스 엔트로피)이다.두번째 항은 실제 분포 p(x)의 평균 정보량(..

[정보 이론] 정보량, 엔트로피와 Cross Entropy의 정의

딥러닝을 학습하며 "크로스 엔트로피 오차"를 아무렇지 않게 사용하고 있었다.그런데 최근 논문을 탐색하면서, "크로스 엔트로피"라는 용어의 정의를 생각보다 엄밀하게 규정해두지 않아 개념들이 잘 이해가 가지 않았다.따라서 다음과 같이 엔트로피의 엄밀한 정의에 대해 서술한다. 항상 일어나는 사건은 새로울 것이 없으므로 여기에서 얻을 수 있는 정보의 양은 매우 적다고 봐도 된다.또한 잘 일어날 것 같지 않는 사건에서는 빈번하게 일어나는 사건에서보다 얻을 수 있는 정보의 양이 더 많다고 봐도 될 것이다. 따라서 정보량은 사건의 발생 빈도의 영향을 받으므로, 확률적인 속성을 가지고 있고, 확률함수로 나타내는 것이 자연스러워진다. 이를 반영해 랜덤벡터 x의 정보량 h(x)를 다음과 같이 정의한다.여기서 p(x)는 x..

124. Binary Tree Maximum Path Sum - Streak 11

이번 문제는 과거에 풀었던 문제와 굉장히 유사했지만, 약간의 차이가 있었다.이번 문제는 "부분 집합"이 아닌, "경로"를 탐색하는 문제였다. 따라서 한가지 추가 처리가 필요했다.그 추가 처리란, 다음과 같은 두 상황의 분리였다.최댓값을 구하는 시점부모 노드에 자신의 최댓값을 전달하는 시점최댓값을 구하는 시점최댓값을 구하는 시점에는, 자신을 거쳐서 반대편 노드로 가는 경로에 대한 계산을 위해, 다음과 같은 네 가지 케이스의 처리가 필요했다.자기 자신 단독왼쪽 - 자기 자신오른쪽 - 자기 자신왼쪽 - 자기 자신 - 오른쪽부모 노드에 자신의 최댓값을 전달하는 시점하지만 부모노드에 자신의 최댓값을 전달하는 시점에는, "왼쪽-자기 자신-오른쪽-부모 노드"와 같은 경로 처리가 불가능하므로, 이를 제외해줘야 했다.자..

PS/LeetCode 2025.09.24