1. 程式人生 > >熵,條件熵,相對熵,互資訊的相關定義及公式推導

熵,條件熵,相對熵,互資訊的相關定義及公式推導

熵,條件熵,相對熵,互資訊的相關定義及公式推導

熵是隨機變數不確定性的度量,不確定性越大,熵值越大,若隨機變數退化成定值,熵為0,均勻分佈是最不確定的分佈。熵其實定義了一個函式(概率分佈函式)到一個值(資訊熵)的對映。熵的定義公式如下:

 

 

 

在經典熵的定義中,底數是2,此時熵的單位是bit,若底數是e,則熵的單位是nat(奈特)

兩個隨機變數X, Y的聯合分佈,可以形成聯合熵Joint Entropy,用H(X,Y)表示,那麼我們不禁要問:H(X,Y) - H(Y)代表什麼呢?

事實上,(X,Y)發生所包含的熵,減去Y單獨發生包含的熵,在Y發生的前提下,X發生的新帶來的熵。於是有了條件熵:H(X|Y)的定義:

下面是條件熵的推導公式:

 相對熵,又稱為互熵,交叉熵,鑑別資訊,KL散度,假設p(x), q(x)是X中取值的兩個概率分佈,則p對q的相對熵是:

對於相對熵,可以度量兩個隨機變數的距離,一般的p對q的相對熵和q對p的相對熵不相等。

對於已知的隨機變數p,要使得相對簡單的隨機變數q,儘量接近p,那麼我們可以採用相對熵進行求解:

假定使用KL(Q||P),為了讓距離最小,則要求在P為0的地方,Q儘量為0。會得到比較“窄”的分佈曲線; 假定使用KL(P||Q),為了讓距離最小,則要求在P不為0的地方,Q也儘量不為0。會得到比較“寬”的分佈曲線;

互資訊

兩個隨機變數X,Y的互資訊,定義為X,Y的聯合分佈和獨立分佈乘積的相對熵。

 對於互資訊,我們可以有如下的推導公式:

&n