1. 程式人生 > >特徵選擇-熵和互資訊

特徵選擇-熵和互資訊

1、熵

一個離散型的隨機變數X的熵H(X)定義為

熵常用以2為底的對數,則熵的單位用位元(bit)進行表示。

以e為底的對數,則熵的單位用nat表示

熵可以看做是隨機變數平均不確定度的度量。

2、互資訊定義(mutual information)

它是一個隨機變數包含另一個隨機變數資訊的度量。

考慮兩個隨機變數X和Y,它們的聯合概率密度函式為p(x,y),其邊際概率密度函式分別為p(x)和p(y),

互資訊I(X;Y)為聯合分佈p(x,y)和乘積分佈p(x)p(y)之間的相對熵。

應用到文字分析領域:

e_{t}:文字包含專案t的時候該值為1,不包含則該值為0

e_{c}:文字屬於某個分類該值為1,否則為0

※如果x,y獨立,則p(x,y)=p(x)*p(y),則互資訊值為0,說明x,y相關是成立的。