1. 程式人生 > >特徵工程之Histogram編碼

特徵工程之Histogram編碼

例如有如下的特徵,我們要對性別進行編碼,可能常用的方法就是男性對應0,女性對應1。

性別 分類標籤
0
1
1
0
2
2
2

Histogram編碼是將屬性值分類,然後對不同的分類進行編碼,編碼方式如下:

1、分類標籤的類別數目有多少,Histogram的編碼向量長度就有多長,比如這裡分類標籤的長度是3,則性別的初始向量就是[0,0,0]

2、統計屬性中每個取值對應的數量,並分類統計,比如性別男,共有5個,0有2個,1有2個,2有1個,對性別女同樣如此

3、使用屬性中每個取值在總數中的佔比統計得到向量,性別男的編碼為[2/5,2/5,1/5],性別女的編碼為[0,0,1]

 

使用Histogram編碼的一個好處是可以明顯看出屬性的取值對分類的貢獻程度,預測可能更準確一些。