1. 程式人生 > >熵(Entropy),交叉熵(Cross-Entropy),KL-鬆散度(KL Divergence),似然(Likelihood)

熵(Entropy),交叉熵(Cross-Entropy),KL-鬆散度(KL Divergence),似然(Likelihood)

1.介紹:

我們如何去衡量y,y`的接近程度?
在這裡我們介紹一下一種衡量方式交叉熵(Cross-Entropy),然後說明一下為什麼這種方式適用於分類問題。

2.熵(Entropy):

熵的概念來自物理中的熱力學,表示熱力學系統中的無序程度,我們說的熵是資訊理論中的熵,表示對不確定性的測量,熵越高,能傳輸的資訊越多,熵越少,傳輸的資訊越少。
也就是我們現在有了觀測到的概率分佈y,y_i = P(X=x_i)。我們要使用平均最小的bit,所以我們應該為x_i 分配log(1/y_i) 個位元。對所有的x_i 我們都有一個對應的最小需要分配的bit長度,那麼我們對這個log(1/y_i)求期望也就得到了X的熵的定義了:

在這裡插入圖片描述

在這裡插入圖片描述

3.交叉熵(Cross-Entropy):

假如說我們用這個分佈來作為我們來對事件編碼的一個工具,熵就衡量了我們用這個正確的分佈y來對事件編碼所能用的最小的bit 長度,我們不能用更短的bit來編碼這些事件或者符號了。

相對的,交叉熵是我們要對y這個分佈去編碼,但是我們用了一些模型估計分佈y`。這裡的話通過y`這個分佈我們得到的關於x_i的最小編碼長度就變成了log(1/y`_i),但是呢,我們的期望仍是關於真是分佈y的。所以交叉熵的定義就變成了:

在這裡插入圖片描述
交叉熵是大於等於熵的,因為我們使用了錯誤的分佈y`會帶來更多的bit使用。當y和y`相等的時候,交叉熵就等於熵了。

4.KL 鬆散度(KL Divergence):

KL鬆散度和交叉熵的區別比較小,KL鬆散度又叫做相對熵,從定義很好看出區別:
在這裡插入圖片描述

這個意思就是說我們要編碼一個服從y分佈的隨機變數,假設我們使用了一些資料估計出來這個隨機變數的分佈是y`,那麼我們需要用比真實的最小bit多多少來編碼這個隨機變數。這個值是大於等於0的,並且當,y和y`相等的時候才為0。注意這裡對交叉熵求最小和對KL鬆散度求最小是一樣的。也就是我們要調整引數使得交叉熵和熵更接近,KL鬆散度越接近0,也就是y`越接近y。

5.預測:

通過上面的描述和介紹,我們應該很高興使用交叉熵來比較兩個分佈y,y`之間的不同,然後我們可以用所有訓練資料的交叉熵的和來作為我們的損失,假如用n來表示我們訓練資料的數量,則損失loss為:


在這裡插入圖片描述
來對這個函式求最小值我們就可以求到最好的引數來使得y和y`最接近。

6.似然(Likelihood):

我們來看看另一種關於兩個分佈之間差異的測量標準–似然,這種標準更加直接,似然越大說明兩個分佈越接近,在分類問題中,我們會選擇那些多數時候預測對了的模型。因為我們總是假設所有的資料點都是獨立同分布的,對於所有資料的似然就可以定義為所有單個數據點的似然的乘積:
在這裡插入圖片描述
對於第n個數據他的似然怎麼算呢?其實很簡單,就是簡單的y*y,來看一下我們最初的那個例子y={蘋果:1,梨子:0},y`={蘋果:0.4,梨子:0.6},所以似然就等於:
在這裡插入圖片描述
所以這裡我們是不是可以考慮一下使用極大似然估計法來求最優引數呢?也就是求似然函式的極大值點。我們來對這個似然函式動一點點手腳。
我們知道對數函式使連續單調函式,我們要求似然函式的極大值等同於我們要求對數似然函式的極大值,然後我們取一個負,就等同於求負對數似然函式的極小值:
在這裡插入圖片描述
這樣,我們就可以把似然函式中的累積連乘變成累加了。而且我們知道我們的觀測結果y中兩個元素必有一個元素是1,另一個元素是0.則對數似然函式為:
在這裡插入圖片描述
然後我們看看所有的資料的負對數似然:
在這裡插入圖片描述
看著有沒有一點眼熟?這就是我們上面的所有資料的交叉熵:
在這裡插入圖片描述

7.總結:

當我們做一個分類模型的時候,我們需要一種方法去衡量真實概率分佈y和預測概率分佈y`之間的差異,然後在訓練過程中調整引數來減小這個差異。在這篇文章中我們可以看到交叉熵是一種不錯的可行的選擇,通過上面的這些等式可以看到,我們求交叉熵的極小值也就等同於我們求負對數似然的極小值。