1. 程式人生 > >【機器學習】資訊、資訊熵、資訊增益、增益率及基尼係數的概念總結

【機器學習】資訊、資訊熵、資訊增益、增益率及基尼係數的概念總結

資訊、資訊熵、資訊增益、增益率及基尼係數的概念總結


資訊

資訊是用來消除隨機不確定性的東西。對於機器學習中的決策樹而言,如果待分類的事物集合可以劃分為多個類別當中,則第k類的資訊可以定義如下:

I(k)=-log_2({p_k})

資訊熵

資訊熵是用來度量不確定性,當熵越大,k的不確定性越大,反之越小

假定當前樣本集合D中第k類樣本所佔的比例為p_k (k=1,2,...,|y|),則D的資訊熵定義為:

Ent(D)=-\sum_{k=1}^{|y|}{p_klog_2 {p_k}}

資訊增益

資訊增益在決策樹演算法中是用來選擇特徵的指標,資訊增益越大,則這個特徵的選擇性越好。

同上,計算特徵a對樣本集D進行劃分所獲得的資訊增益為:

Gain(D,a)=Ent(D)-\sum_{v=1}^{V}{\frac{|D^v|}{|D|}}Ent(D^v)

事實上,資訊增益準則對可取值數目較多的特徵有所偏好,為了減少這種偏好可能帶來的不利影響,C4.5決策樹演算法使用了“增益率”:

Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}

其中IV(a)稱為屬性a的“固有值”:

IV(a)=-\sum_{v=1}^{V}{\frac{|D^v|}{|D|}}log_2{\frac{|D^v|}{|D|}}

需要注意的是,增益率準則對可取值數目較少的屬性所有偏好,因此,C4.5演算法並不是直接選擇增益率最大的候選劃分屬性,而是使用了一個啟發式:先從候選劃分屬性中找出資訊增益高於平均水平的屬性,再從中選擇增益率最高的。

基尼係數

CART據冊數使用了“基尼係數”來選擇劃分屬性,它反映了從資料集D中隨機抽取兩個樣本,與其類別標記不一致的概率。因此在候選屬性集合A中,選擇基尼係數最小的屬性作為最優劃分屬性:

Gini\_index(D,a)=\sum_{v=1}^{V}{\frac{|D^v|}{|D|}}Gini(D^v)

 

參考內容:周志華《機器學習》