資訊熵（夏農熵），相對熵（KL散度），交叉熵三者的對比以及吉布斯不等式

各種各樣資訊科學中，無論是通訊還是大資料處理，各種“熵”是非常重要的，因為它可以度量隨機變數不確定度，量化資訊量的大小。

首先複習一下資訊熵(夏農熵），輔助我們對相對熵和交叉熵的理解。
對於一個隨機變數 $X$ ,其可能的取值分別為 $X = {x_{1}, x_{2}, x_{3}, . . . x_{n}}$ ,對應概率為 $P (X = x_{n}) = P_{n}$ ,於是 $X$ 的資訊熵為：

H (X) = - \sum_{i = 1}^{n} P_{i} l o g P_{i}

我們換成以下形式：

H (X) = \sum_{i = 1}^{n} P_{i} (- l o g P_{i})

這樣看來，像不像對隨機變數

X

的某種特徵求期望？而這個期望就是隨機變數

X

攜帶的資訊量。那隻要反過去理解，就能得出

(- l o g P_{i})

是

X = x_{i}

時，我們能夠獲得資訊量的大小，並且也符合“概率越小，不確定性越大，資訊量越大”。

如果我們對於同一個隨機變數 $X$ 有兩個單獨的概率分佈 $P (X)$ 和 $Q (X)$ ，我們可以使用KL散度（Kullback-Leibler(KL)divergence）來衡量這兩個分佈的差異：

D_{K L} (P | | Q) = E_{X \sim P} [l o g \frac{P (X)}{Q (X)}] = E_{X \sim P} [l o g P (X) - l o g Q (X)]

先來看一下對於相對熵比較廣泛的一種說法：

在離散型變數的情況下，KL散度衡量的是，當我們使用一種被設計成能夠使得概率分佈 $Q$ 產生的訊息的長度最小的編碼，傳送包含由概率分佈 $P$ 產生的符號的訊息時，所需要的額外資訊量

說實話這很難讓人真正理解，甚至因為相對熵的不對稱性，很容易讓人把 $P$ 和 $Q$ 搞混。所以對上面公式變形得到我們熟悉的形式：

D_{K L} (P | | Q) = \sum_{i = 1}^{n} P_{i} [l o g P (X = x_{i}) - l o g Q (X = x_{i})] = \sum_{i = 1}^{n} P (X = x_{i}) {- l o g Q (X = x_{i}) - [- l o g P (X = x_{i})]}

資訊熵（夏農熵），相對熵（KL散度）， 交叉熵 三者的對比以及 吉布斯不等式