[수학] 두 확률(가우시안)간 거리

이 기사에서는 확률 분포 사이에서 일반적으로 사용되는 거리 측정을 간략하게 요약하고 싶습니다.

특히 확률분포가 가우시안일 때 공식을 정리하고자 합니다.

벤치마크는 Jensen-Shannon divergence, Hellinger입니다!


엔트로피

정보 이론에서 사용되는 엔트로피는 확률 분포가 갖는 불확실성을 나타냅니다.

엔트로피는 다음과 같이 정의됩니다.

$$ H(X) = -\sum_x p(x)logp(x) = \mathbb{E}(-logp(X))$$


Jensen-Shannon 발산

JSD는 또한 두 확률 분포 사이의 유사성을 측정하기 위해 일반적으로 사용되는 척도입니다.

JSD는 Kullback-Leibler 분기를 기반으로 하므로 우선 KLD를 따릅니다.

$$ D_{KL}(P||Q) = \sum_x p(x)log\left(\frac{p(x)}{q(x)}\right) $$

KLD는 또한 두 확률 분포 간의 차이를 측정합니다.

KLD가 작을수록 두 분포가 더 유사하다는 의미입니다.

그러나 KLD는 비대칭으로 인해 정확히 “거리”가 아니며 JSD를 사용하여 보정합니다.

보면 위의 엔트로피, 상대 엔트로피라고도 하는 것과 비슷하다는 것도 알 수 있습니다.

아래와 같이 교차 엔트로피에 대한 엔트로피 차이로 표현할 수 있습니다.

$$ D_{KL}(P||Q) = H(P,Q) – H(P) $$

두 확률분포가 가우시안이라 하더라도 다음과 같이 분석적으로 구할 수 있다.

\begin{정렬}
KL\Big(& \mathcal{N}(\mu_1, \Sigma_1) || \mathcal{N}(\mu_2, \Sigma_2) \Big) \\
&=\frac{1}{2} \Big( \mathrm{tr}({\시그마}_2^{-1} {\시그마}_1) +
({\mu}_2 – {\mu}_1)^T {\시그마}_2^{-1} ({\mu}_2 – {\mu}_1) – k_d + \ln \frac{|{\시그마 }_2|}{|{\시그마}_1|} \빅)
\end{정렬}

위에서 언급한 바와 같이 JSD는 KLD를 기준으로 다음과 같이 계산됩니다.

참고로 $M = (P + Q) / 2$.

$$ JSD(P || Q) = \sqrt{\frac{1}{2} \left(KL(P || M) + KL(Q || M) \right)} $$

또한 기본 JSD log ln을 사용하는 경우 상한값은 ln(2)가 됩니다.

특히, b가 로그의 밑이면 상한은 $log_b(2)$입니다.


헬링거 거리

마찬가지로 두 분포의 유사성을 측정합니다.

Hellinger 거리의 제곱은 다음과 같습니다.

0에 가까울수록 두 분포가 더 유사합니다.

$$ H^2(P,Q)=\frac{1}{2}\int \left( \sqrt{p(x)} – \sqrt{q(x)} \right)^2dx = 1-\ int \sqrt{p(x)q(x)}dx $$

위 식에서 알 수 있듯이 상한은 1입니다.

두 분포가 모두 가우시안이면 다음과 같이 분석적으로 찾을 수 있습니다.

$$ H^2(\mathcal{N}(\mu_1, \Sigma_1) || \mathcal{N}(\mu_2, \Sigma_2)) = \\1 – \frac{|{\시그마}_1|^{ 1/4}|{\시그마}_2|^{1/4}}{|{\시그마}{avg}|^{1/2}} \exp\left(-\frac{1}{8}( {\mu}_1-{\mu}_2)^T({\Sigma}{avg})^{-1}({\mu}_1-{\mu}_2)\right) $$

참고로 이것은 Bhattacharyya 거리($Bhat=-ln(1-H^2)$)와 비슷해 보입니다.

그러나 Bhattacharyya 거리는 거리라고 부르지만 삼각형 부등식을 만족하지 않기 때문에 “거리”가 아닙니다.

마찬가지로 Gauss의 경우 다음과 같이 구할 수 있다.

$$ Bhat\Big( \mathcal{N}(\mu_1, \Sigma_1) || \mathcal{N}(\mu_2, \Sigma_2) \Big) \\= \frac{1}{2}log\left( \frac{|{\시그마}{avg}|}{\sqrt{|{\시그마}_1| |{\시그마}2|}} \right)+\frac{1}{8} ({\mu } _1 – {\mu}_2)^T {\시그마}_{avg}^{-1} ({\mu}_1 – {\mu}_2)$$

Bhattacharyya 거리는 상한이 없습니다.

감사해요