1. 程式人生 > >互資訊(Mutual Information)的介紹

互資訊(Mutual Information)的介紹

概念

互資訊,Mutual Information,縮寫為MI,表示兩個變數X與Y是否有關係,以及關係的強弱。

公式

我們定義互資訊的公式為:

I(X,Y)=XYP(X,Y)logP(X,Y)P(X)P(Y)I(X,Y)=∫X∫YP(X,Y)log⁡P(X,Y)P(X)P(Y)

可以看出,如果X與Y獨立,則P(X,Y)=P(X)P(Y),I(X,Y)就為0,即代表X與Y不相關

解析公式

I(X;Y)=XYP(X,Y)logP(X,Y)P(X)P(Y)=XYP(X,Y)logP(X,Y)P(X)XYP(X,Y)logP(Y)=XYP(X)P(Y|X)logP(Y|X)Ylog
P(Y)XP(X,Y)
=XP(X)YP(Y|X)logP(Y|X)YlogP(Y)P(Y)=XP(X)H(Y|X=x)+H(Y)=H(Y)H(Y|X)
I(X;Y)=∫X∫YP(X,Y)log⁡P(X,Y)P(X)P(Y)=∫X∫YP(X,Y)log⁡P(X,Y)P(X)−∫X∫YP(X,Y)log⁡P(Y)=∫X∫YP(X)P(Y|X)log⁡P(Y|X)−∫Ylog⁡P(Y)∫XP(X,Y)=∫XP(X)∫YP(Y|X)log⁡P(Y|X)−∫Ylog⁡P(Y)P(Y)=−∫XP(X)H(Y|X=x)+H(Y)=H(Y)−H(Y|X)

Y的熵指的是衡量的是Y的不確定度,Y分佈得越離散,H(Y)的值越高

H(Y|X)則表示在已知X的情況下,Y的不確定度

所以,根據互資訊公式的變形: I(X,Y)=H(Y)H(Y|X)I(X,Y)=H(Y)−H(Y|X)

可以看出,I(X,Y)可以解釋為由X引入而使Y的不確定度減小的量,這個減小的量為H(Y|X)

所以,如果X,Y關係越密切,I(X,Y)就越大

I(X,Y)最大的取值是H(Y)H(Y),此時H(Y|X)為0,意義為X和Y完全相關,在X確定的情況下Y是個定值,沒有出現其他不確定情況的概率,所以為H(Y|X)為0

I(X,Y)取0時,代表X與Y獨立,此時H(Y)=H(Y|X),意義為X的出現不影響Y。。

性質

I(X;Y)I(X;Y)的性質: 1)I(X;Y)⩾0 ,I(X;Y)⩾0 2)H(X)−H(X|Y)=I(X;Y)=I(Y;X)=H(Y)−H(Y|X)H(X)−H(X|Y)=I(X;Y)=I(Y;X)=H(Y)−H(Y|X) 3)當X,Y獨立時,I(X;Y)=0,I(X;Y)=0 4)當X,Y知道一個就能推斷另一個時,I(X;Y)=H(X)=H(Y)

缺點

在做文字分類時,我們可能會判斷一個詞和某類的相關程度,但是計算時,未考慮詞頻的影響 (可以讓互資訊的結果再乘上tf-idf因子,從而將特徵頻率與特徵分佈考慮進去)

應用

1、文字自動摘要 2、兩個詞語同時出現的概率 PMI(點互資訊),通過判斷一個詞分別與poor和excellent的互資訊來判斷這個詞的情感傾向 這裡寫圖片描述 3、特徵提取時特徵項與類別的關聯程度 這裡寫圖片描述

更多