1. 程式人生 > >AI機器學習-信息熵,條件熵,信息增益

AI機器學習-信息熵,條件熵,信息增益

人工智能 其他

信息熵

信息熵是系統有序化程度的一個度量。比如說,我們要搞清楚一件非常非常不確定的事,或是我們一無所知的事情,就需要了解大量的信息。相反,如果我們對某件事已經有了較多的了解,我們不需要太多的信息就能把它搞清楚。

所以,從這個角度,我們可以認為,信息量的度量就等於不確定性的多少。一個系統越是有序,信息熵就越低;反之,一個系統越是混亂,信息熵就越高。1948 年,香農提出了“信息熵”(shāng) 的概念,所以信息熵也叫香農熵,假設在一個集合D中第i類樣本所占的比例為pi(i=1,2,3…n),則D的信息熵可表示為:

技術分享圖片


條件熵

現在我們假設將訓練數據D按屬性A進行劃分,假設屬性A有v個可能的取值,則按A屬性進行分裂出的v個子集(即樹中的v個分支),每個可能取值集合為Dj

則A屬性的條件熵計算方法為(|Dj|和|D|表示集合中元素的個數):

技術分享圖片


信息增益

信息熵減去條件熵,表示此條件對於信息熵減少的程度,即可以對信息的判斷減少多少不確定性,數值越大,表示某個條件熵對信息熵減少程序越大,也就是說,這個屬性對於信息的判斷起到的作用越大。屬性A的信息增益的計算公式為:

技術分享圖片


關註微信公眾號“挨踢學霸”,獲取更多精彩文章

技術分享圖片

AI機器學習-信息熵,條件熵,信息增益