人工智慧通識-科普-Gini基尼係數
歡迎關注我的專欄( つ•̀ω•́)つ【人工智慧通識】
經濟學中的基尼係數和決策樹中的基尼雜質(不純度)是不同的概念。

基尼係數Gini coefficient
基尼指標Gini index或基尼係數Gini coefficient是義大利統計學家科拉多·基尼Corrado Gini在1912年制定的分佈的統計指標。
也有硬把基尼指標稱為基尼指數的,從英文上看index和指數無關,應該是翻譯的筆誤成為習慣了吧。
基尼係數通常被用來衡量經濟不平等或收入分配,或者不均勻的財富分配。
基尼係數範圍從0(或0%)到1(或100%),0表示完全均衡,1表示完全不均衡。但理論上講,由於負收入或負財富,超過1的值是可能的。
一個國家,如果每個人的都收入都相等,基尼係數就是0,最均等;如果這個國家1個人擁有全部財富,而其他所有人都一無所有,那麼基尼係數就變為1,最不均等。

從上圖可以理解基尼係數的數學含義。橫向是人口百分比例,從左側0個人到右側100%全國人口;豎向是人口所對應的財富佔比。比如說圖中深藍色線玻利維亞Bolivia國家的50%人口擁有19.52%的財富;而在海地Haiti這個國家同樣50%的人口卻只擁有11.89%的財富(圖中未標示);感性上說玻利維亞更均等些。
如果某個國家的財富分佈是最上面的淺藍色直線那樣,那麼它正好是50%的人擁有50%的財富,60%的人擁有60%的財富...人均財富相等的完美狀態。
基尼係數就是指完美均等斜線下面的面積L,減去曲線下的面積C,然後再除以A的值,即:
很明顯它的值在0到1之間,0即表示和直線重合,1就是極端不均等狀態。

這條描述人口和財富比例變化的曲線就叫做洛倫茲曲線,它是美國經濟學家馬克斯洛倫茲在1905年創造的。
錯誤分類率Incorrect Classification
假設我們有三種水果共12個,其中三個蘋果Apple,三個香蕉Banana,六個櫻桃Cherry,表示為下:
如果我們從其中取出任意一個草莓,然後隨機的給它貼一個種類標籤,“蘋果”,“香蕉”或者“草莓”,那麼,我貼錯的可能性是多少?——我有50%的可能性貼錯,或者是我有 可能貼對。
同樣,任意取一個蘋果,隨機貼標籤,錯誤的概率就大很多, 會搞錯,取香蕉任意貼的錯誤率也是
。
好了,我們在考慮任意在12個水果裡面取一個,會取到櫻桃的概率是多少? ,一半的概率。同樣取到蘋果或者香蕉的概率都是
。
綜上,對於3個A,3個B和6個C的一組資料,隨機分類的錯誤率是下面的算式:
先不急著計算,仔細看就會注意到 ,
,這意味著,某個種被隨機貼錯標籤的概率
等於1減去這個種類可能被隨機取到概率
,即:
基尼雜質Gini Impurity
在機器學習中提及的Gini基尼其實是指基尼雜質Gini Impurity或者說是基尼不純度,當然也經常被稀裡糊塗的稱之為基尼係數Gini index。

在這裡,基尼雜質就是指所有分類的可能錯誤分類率之和,按照上面水果的例子來說,就是上面的算式的結果:
計算基尼雜質的公式就是將所有分類佔比 乘以分類錯誤率
之積疊加:
這裡的J是指所有可能分類的總數,即有J個種類,在上面水果分類中J=3。這裡的k表示的是錯誤貼上去的標籤。
我們接下來對這個公式簡化一下:
注意:
- 利用了我們上面說到的
;
-
,蘋果、香蕉、櫻桃所有種類的可能性之和當然是1;
最後我們把基尼雜質公式寫下來就是:
怎麼講?還是以12水果的例子來看:
與我們上面的方法一致。
屬性的基尼雜質

上面我們計算的是系統最終輸出的基尼雜質,下面我們來看一下在上一篇資訊增益-3中的女生擇偶資料的例子:

“顏值屬性”的基尼雜質怎麼計算?
我們從基尼雜質的基本概念出發,先看顏值高的分類情況:
- 顏值只有兩個類別,高或低;
- 共8個高顏值,隨機選一個,選中高的概率
;
- 選到高,然後隨機貼,50%概率貼“嫁”,有5個搞錯,那麼錯誤率是
- 選到高,然後隨機貼,50%概率貼“否”,有3個搞錯,那麼錯誤率是
所以高分類的分類錯誤率是:
我們再看顏值低的分類情況:
- 共4個低顏值,隨機選一個,選中低的概率
;
- 選到低,然後隨機貼,50%概率貼“嫁”,有1個搞錯,那麼錯誤率是
- 選到高,然後隨機貼,50%概率貼“否”,有3個搞錯,那麼錯誤率是
所以總的基尼雜質是:
注意,基尼雜質越高就代表越容易分類錯誤,也就越不好,所以應該優先選擇雜質低的屬性作為決策樹的上層分類節點。
基尼雜質和AOC、ROC指標有著很多相似特性,後續我們再繼續學習。
歡迎關注我的專欄( つ•̀ω•́)つ【人工智慧通識】
每個人的智慧新時代
如果您發現文章錯誤,請不吝留言指正;
如果您覺得有用,請點喜歡;
如果您覺得很有用,歡迎轉載~
END