資訊熵(夏農熵),相對熵(KL散度), 交叉熵 三者的對比以及 吉布斯不等式
阿新 • • 發佈:2019-02-03
各種各樣資訊科學中,無論是通訊還是大資料處理,各種“熵”是非常重要的,因為它可以度量隨機變數不確定度,量化資訊量的大小。
- 資訊熵(夏農熵)
首先複習一下資訊熵(夏農熵),輔助我們對相對熵和交叉熵的理解。
對於一個隨機變數,其可能的取值分別為,對應概率為,於是的資訊熵為:
- 相對熵(KL散度)
如果我們對於同一個隨機變數有兩個單獨的概率分佈 和 ,我們可以使用KL散度(Kullback-Leibler(KL)divergence)來衡量這兩個分佈的差異:
先來看一下對於相對熵比較廣泛的一種說法:在離散型變數的情況下,KL散度衡量的是,當我們使用一種被設計成能夠使得概率分佈產生的訊息的長度最小的編碼,傳送包含由概率分佈產生的符號的訊息時,所需要的額外資訊量
說實話這很難讓人真正理解,甚至因為相對熵的不對稱性,很容易讓人把和搞混。所以對上面公式變形得到我們熟悉的形式: