1. 程式人生 > >面經之連續值特徵做離散化的好處

面經之連續值特徵做離散化的好處

在特徵工程中,我們常常需要對連續型特徵進行離散化處理,那麼這麼做有什麼好處呢?下面做簡單的總結:

1.離散特徵的增加和減少都很容易,易於模型的快速迭代;

2.係數矩陣內機乘法運算速度更快,計算結果方便儲存,易於擴充套件;

3.離散化後的特徵對異常資料有很強的魯棒性。比如一個特徵是年齡=300歲,會給模型造成很大的干擾;

4.單變數離散化N個後,每個變數有單獨的權重,相當於為模型引入了非線性,能夠提升模型表達能力,加大擬合;

5.離散化後可以進行特徵交叉,由M+N個變數變為M*N個變數,進一步引入非線性,提升表達能力;

6.特徵離散化後,模型會更穩定,比如:用使用者年齡離散化後,20-30作為一個區間,不會因為一個使用者年齡增長1歲變成完全不同的人,當然處於區間相鄰的樣本會剛好相反,所以劃分是門學問

7.特徵離散化以後,起到了簡化邏輯迴歸模型的的作用,降低模型過擬合的風險。