[정보이론] (Shannon) Entropy, Cross Entropy, KL Divergence

Artificial Intelligence/ML & DL

oneonlee 2023. 3. 30. 23:43

(Shannon) Entropy, Cross Entropy, KL Divergence

KL divergence - 공돌이의 수학정리노트

angeloyeo.github.io

Entropy는 정보 이론에서 사용되는 개념 중 하나로, 어떤 확률 분포가 가지는 정보의 평균적인 양을 나타내는 값이다.

정보량이 많을수록 Entropy 값은 높아지며, 정보량이 적을수록 Entropy 값은 낮아진다.

여기서 p(x)는 확률 분포를 나타낸다.

엔트로피를 이해하기 위해 동전 던지기의 예를 고려할 수 있다.

공정한 동전이 있다면 이 시스템의 엔트로피는 1이 될 것이다. 즉, 평균적으로 각 동전 던지기에서 1비트의 정보를 받을 것으로 예상된다.

그러나 편향된 코인이 있으면 시스템의 불확실성과 무작위성이 적기 때문에 엔트로피가 낮아진다. 예를 들어 항상 앞면이 나오는 동전이 있는 경우 결과에 불확실성이 없기 때문에 이 시스템의 엔트로피는 0이 된다.

엔트로피의 또 다른 예는 언어 모델이 있다. 언어 모델의 엔트로피는 이전 단어를 기반으로 문장의 다음 단어를 예측하는 데 필요한 평균 정보량을 나타낸다.

언어 모델이 큰 텍스트 코퍼스에 대해 학습되면 다음 단어를 예측할 때 불확실성이 적기 때문에 엔트로피가 낮아진다.

Cross Entropy는 두 확률 분포 간의 차이를 나타내는 값으로, 예측 모델의 결과값과 실제 값의 차이를 계산할 때 사용된다.

여기서 p(x)는 실제 정답값의 확률 분포, q(x)는 예측 값의 확률 분포를 나타낸다.

KL Divergence는 두 확률 분포 간의 차이를 측정하는 지표 중 하나로, 기계 학습 및 정보 이론에서 예측 분포를 목표 분포와 비교하는 데 자주 사용된다.

KL Divergence가 작으면 예측한 확률 분포가 실제 확률 분포와 비슷하다는 뜻이고, 클수록 차이가 크다는 뜻이다.

여기서 p(x)는 실제 값의 확률 분포, q(x)는 예측 값의 확률 분포를 나타낸다.

KL Divergence와 Cross Entropy는 유사하지만, KL Divergence는 두 확률 분포 간의 차이를 측정할 때 비대칭성을 가진다는 차이점이 있다.

KL Divergence에서는 D(P | Q)와 D(Q | P)가 서로 다를 수 있는 반면, Cross Entropy는 항상 대칭적으로 계산된다.

따라서 KL Divergence는 Cross Entropy보다 더 엄격한 지표로써 예측 모델의 성능을 더욱 정확하게 평가할 수 있다.