1. 程式人生 > >熵模型—— 熵,條件熵,聯合熵,相對熵,互資訊及其關係,最大熵模型。。

熵模型—— 熵,條件熵,聯合熵,相對熵,互資訊及其關係,最大熵模型。。

引入1:隨機變數函式的分佈

 給定X的概率密度函式為fX(x), 若Y = aX, a是某正實數,求Y得概率密度函式fY(y).

解:令X的累積概率為FX(x), Y的累積概率為FY(y).

則 FY(y) = P(Y <= y) = P(aX <= y) = P(X <= y/a) = FX(y/a),

則 fY(y) = d(FX(y/a)) / dy = 1/a * fX(x/a)

引入2:如何定義資訊量

某事件發生的概率小,則該事件的資訊量大;
如果兩個事件X和Y獨立,即p(xy) = p(x)p(y),假定X和Y的資訊量分別為h(X)和h(Y),則二者同時發生的資訊量應該為h(XY) = h(X) + h(Y).
定義事件X發生的概率為:p(x),則X的資訊量為:h(p(x)) = -lnp(x)
那麼,事件X的資訊量的期望如何計算呢?
一句話總結最大熵模型:

  1. 我們的假設應當滿足全部已知條件;

  2. 對未知的情況不做任何主觀假設。

(一)熵

對隨機事件的資訊量求期望,得熵的定義:

H(X) = -Σp(x)lnp(x)

經典熵的定義,底數是2,單位為bit;
為了方便計算可以使用底數e,則單位為nat(奈特)。
可以得到,當一個變數X服從均勻分佈時,它所包含的資訊熵是最大的。

計算如下:

p(xi) = 1/N, 則熵為:H(p) = -Σpi * lnpi = -Σ1/N * ln(1/N) = lnN

所以,我們可以得到如下結論:

0 <= H(X) <= ln|X|
熵是隨機變數不確定性的度量,不確定性越大,熵值越大;
若隨機變數退化為定值,則熵最小,為0;
鎖隨機分佈為均勻分佈,熵最大。
這是無條件的最大熵分佈,那如果是有條件的,該怎麼做呢?
使用最大熵模型
若只給定期望和方差的前提下,最大熵的分佈形式是什麼?

二)聯合熵和條件熵

兩個隨機變數X,Y的戀歌分佈,可以形成聯合熵(Joint Entropy),用H(X, Y)表示。
即:H(X, Y) = -Σp(x, y) lnp(x, y)
H(X, Y) - H(Y)
表示(X, Y)發生所包含的熵,減去Y單獨發生包含的熵:在Y發生的前提下,X發生新帶來的熵。
條件熵:H(X|Y)
這裡寫圖片描述

(三)相對熵/交叉熵/K-L散度

相對熵,又稱互熵,交叉熵,鑑別資訊,Kullback-Leible散度等。
這裡寫圖片描述

相對熵具有如下性質:

相對熵可以度量兩個隨機變數的距離;
一般不具有對稱性,即D(p||q) ≠ D(q||p),當且僅當p = q, 則相對熵為0,二者相等;
D(p||q) >= 0, D(q||p) >= 0.
那麼,我們應該使用D(p||q) 還是 D(q||p)呢?

假定已知隨機變數P,求一個隨機變數Q,使得Q儘量接近於P,這樣我們可以使用P和Q的K-L來度量他們的距離。

假定使用KL(Q || P),為了讓距離最小,則要求P為0的地方,Q儘量為0。這樣會得到比較瘦高的分佈曲線;
假定使用KL(P || Q),為了讓距離最小,則要求P不為0 的地方,Q也儘量不為0。這樣會得到比較矮胖的分佈曲線。

(四)互資訊

兩個隨機變數X,Y的互資訊,定義為X,Y的聯合分佈和獨立分佈乘積的相對熵。

即: I(X, Y) = D(P(X, Y) || P(X)P(Y))

即:
這裡寫圖片描述
可以通過簡單的計算得到:

H(X|Y) = H(X) - I(X, Y),

互資訊為0,則隨機變數X和Y是互相獨立的。

(五)各種熵之間的關係

H(X|Y) = H(X, Y) - H(Y); H(Y|X) = H(X, Y) - H(X) —— 條件熵的定義
H(X|Y) = H(X) - I(X, Y); H(Y|X) = H(Y) - I(X, Y)
I(X, Y) = H(X) - H(X|Y) = H(X) + H(Y) - H(X, Y) —— 也可以作為互資訊的定義
H(X|Y) <= H(X):
H(X)表示X的不確定度;H(X|Y)表示給定Y的情況下,X的不確定度。
如果X與Y完全獨立,則二者相等(給不給Y對X能給出多少資訊無關);
而如果X與Y不是獨立的,則給定Y之後會降低X的熵,即X的不確定性會降低。
用Venn圖幫助記憶:
這裡寫圖片描述

(六)最大熵模型

最大熵模型的原則:

承認已知事物(知識);
對未知事物不做任何假設,沒有任何偏見。
對一個隨機事件的概率分佈進行預測時,我們的預測應當滿足全部已知條件,而對未知的情況不要做任何主觀假設。在這種情況下,概率分佈最均勻,預測的風險最小。

因為這時概率分佈的資訊熵最大,所以人們把這種模型叫做“最大熵模型”(Maximum Entropy)。

最大熵模型一般是在給定條件下求條件熵,所以我們可以使用Lagrange乘子法來解決。

1)最大熵的一般模型
這裡寫圖片描述

2)Lagrange函式為:

這裡寫圖片描述

其中,含λi的第一個約束項表示我們的模型要能夠很好的解釋初始資料集,fi(x, y)表示我們選取的第i個特徵;含ν0的第二個約束項表示概率加和為1.

p(x, y) = p(y | x) * p(x),而p(x)是已知的,所以我們用p(x)_bar來表示已知量。

3)對p(y|x)求偏導

這裡寫圖片描述

其中,為了計算方便,我們令ν0 = λ0 * p(x). 然後得到其最優解形式,如紅框內所示。

4)歸一化

上面通過求偏導得到的p*是沒有經過歸一化的,加上歸一化因子zλ(x)。

這裡寫圖片描述

5)與Logistic/SoftMax迴歸的對比

Logistic/SoftMax迴歸的後驗概率形式:

最大熵模型的後驗概率形式:
這裡寫圖片描述
Logistic迴歸是統計學習中的經典分類方法,可以用於二類分類也可以用於多類分類。
這裡寫圖片描述
最大熵模型由最大熵原理推匯出來,最大熵原理是概率模型學習或估計的一個準則,最大熵原理認為在所有可能的概率模型的集合中,熵最大的模型是最好的模型,最大熵模型也可以用於二類分類和多類分類。

Logistic迴歸模型與最大熵模型都屬於對數線性模型。

邏輯迴歸跟最大熵模型沒有本質區別。邏輯迴歸是最大熵對應類別為二類時的特殊情況

指數簇分佈的最大熵等價於其指數形式的最大似然。

二項式分佈的最大熵解等價於二項式指數形式(sigmoid)的最大似然;
多項式分佈的最大熵等價於多項式分佈指數形式(softmax)的最大似然。

求最大熵的問題最後可以化成MLA的問題做,兩者的出發點不同,但是最終的形式是一樣的。

中心極限定理:一組有確定方差的獨立隨機變數的和趨近於高斯分佈。即給定隨機變數X和Y,則X+Y比X或Y更接近於高斯分佈。

【總結】

根據最大似然估計的正確性可以斷定:最大熵的解(無偏的對待不確定性)是最符合樣本資料分佈的解,即最大熵模型的合理性;
資訊熵可以作為概率分佈集散程度的度量,使用熵的近似可以推匯出gini係數,在統計問題、決策樹等問題中有重要應用;
熵:不確定性的度量;
似然:與知識的吻合程度;
最大熵模型:對不確定度的無偏分配;
最大似然估計:對知識的無偏理解。