엔트로피

정보를 어떻게 표현하는가?

최소 자원량

왜 엔트로피는 $ H(X) = - \sum_{i = 1}^{n}p(x_i)logp(x_i) $ 형태인가

정보량

X의 정보량 h(x) 는 p(x)에 대한 함수 해가 동쪽에 뜰 확률 $ p(east) = 0.999999 $, 서쪽에 뜰 확률 $ p(west) = 1 $이다. 따라서 $ h(west) > h(east) $이다.


확률 변수 X,Y

  1. X는 East,West 두 가지
  2. Y는 Rain, Not Rain 두가지
  3. X,Y는 독립 정보 2개가 있을 때 우리가 얻을 수 있는 정보는 $ h(x,y) = h(x) + h(y) $ 로 표현할 수 있다.
    정보 2개가 있을 때 우리가 얻을 수 있는 확률은 $ p(x,y) = p(x) * p(y) $ 이다.
    따라서, $ f(p(x,y)) = f(p(x)*p(y)) = f(p(x)) + f(p(y)) $ 이며 로그의 형태로 $ h(x) = -log_2p(x) $로 표현이 가능하다.

이때 엔트로피(평균적인 정보량)은 각 정보량을 보낼 사건의 확률과 정보 수치 곱들의 합
$ p(east) * h(east) + p(west) * h(west) $ 이므로 $ H(X) = - \sum_{i = 1}^{n}p(x_i)logp(x_i) $ 형태가 나오게 된다. 이 식을 계산한 결과의 의미는 평균적으로 엔트로피 bits 수만큼의 정보량을 보낸다! 라고 할 수 있다.

KL Divergence란?

성질

  1. 항상 양수
    $ KL(p|q) > =0, (p=q 일때 0 만족) $

KL Divergence 와 Cross-Entropy의 차이

$ KL(p|q) = H(p,q) - H(p), {(이때\,H는\,정보량의\,함수)} $인것은 위에 설명한 내용들로 이해가 되었다.
이때, H(p,q)를 Cross Entropy라고 부른다. $ KL(p|q) $ 식을 q에 대해 미분하면 뒤에텀은 사라져서 최종적으로
$ H(p,q) $ 만 남기떄문에 이 식을 minimize하여 p로 가깝게 만들어나가는것이다.

Mutual Information 이란?


참고
[1] https://www.youtube.com/watch?v=Dc0PQlNQhGY&ab_channel=%ED%8C%A1%EC%9A%94%EB%9E%A9Pang-YoLab
[2] https://www.youtube.com/watch?v=7GBXCD-B6fo&ab_channel=MinsukHeo%ED%97%88%EB%AF%BC%EC%84%9D
[3] https://www.youtube.com/watch?v=z1k8HVU4Mxc&ab_channel=%ED%98%81%ED%8E%9C%ED%95%98%EC%9E%84