1. 程式人生 > >資料特徵的標準化和歸一化你瞭解多少?

資料特徵的標準化和歸一化你瞭解多少?

一、標準化/歸一化定義

歸一化和標準化經常被搞混,程度還比較嚴重,非常干擾大家的理解。為了方便後續的討論,必須先明確二者的定義。

歸一化

就是將訓練集中某一列數值特徵(假設是第i列)的值縮放到0和1之間。方法如下所示:

 

 

標準化

就是將訓練集中某一列數值特徵(假設是第i列)的值縮放成均值為0,方差為1的狀態。如下所示:

 

 

進一步明確二者含義

歸一化和標準化的相同點都是對某個特徵(column)進行縮放(scaling)而不是對某個樣本的特徵向量(row)進行縮放。對特徵向量進行縮放是毫無意義的

(暗坑1) 比如三列特徵:身高、體重、血壓。每一條樣本(row)就是三個這樣的值,對這個row無論是進行標準化還是歸一化都是好笑的,因為你不能將身高、體重和血壓混到一起去!

線上性代數中,將一個向量除以向量的長度,也被稱為標準化,不過這裡的標準化是將向量變為長度為1的單位向量,它和我們這裡的標準化不是一回事兒,不要搞混哦(暗坑2)

二、標準化/歸一化的好處

2.1 提升模型精度

機器學習演算法的目標函式(例如SVM的RBF核心或線性模型的l1和l2正則化),許多學習演算法中目標函式的基礎都是假設所有的特徵都是零均值並且具有同一階數上的方差。如果某個特徵的方差比其他特徵大幾個數量級,那麼它就會在學習演算法中佔據主導位置,導致學習器並不能像我們說期望的那樣,從其他特徵中學習。

舉一個簡單的例子,在KNN中,我們需要計算待分類點與所有例項點的距離。假設每個例項點(instance)由n個features構成。如果我們選用的距離度量為歐式距離,如果資料預先沒有經過歸一化,那麼那些絕對值大的features在歐式距離計算的時候起了決定性作用。

從經驗上說,歸一化是讓不同維度之間的特徵在數值上有一定比較性,可以大大提高分類器的準確性。

2.2 提升收斂速度

對於線性model來說,資料歸一化後,最優解的尋優過程明顯會變得平緩,更容易正確的收斂到最優解。

 

 

比較這兩個圖,前者是沒有經過歸一化的,在梯度下降的過程中,走的路徑更加的曲折,而第二個圖明顯路徑更加平緩,收斂速度更快。 對於神經網路模型,避免飽和是一個需要考慮的因素,通常引數的選擇決定於input資料的大小範圍。

三、標準化/歸一化的對比分析

首先明確,在機器學習中,標準化是更常用的手段,歸一化的應用場景是有限的。我總結原因有兩點:

1、標準化更好保持了樣本間距。當樣本中有異常點時,歸一化有可能將正常的樣本“擠”到一起去。比如三個樣本,某個特徵的值為1,2,10000,假設10000這個值是異常值,用歸一化的方法後,正常的1,2就會被“擠”到一起去。如果不幸的是1和2的分類標籤還是相反的,那麼,當我們用梯度下降來做分類模型訓練時,模型會需要更長的時間收斂,因為將樣本分開需要更大的努力!而標準化在這方面就做得很好,至少它不會將樣本“擠到一起”。

2、標準化更符合統計學假設

對一個數值特徵來說,很大可能它是服從正態分佈的。標準化其實是基於這個隱含假設,只不過是略施小技,將這個正態分佈調整為均值為0,方差為1的標準正態分佈而已。

所以,下面的討論我們先集中分析標準化在機器學習中運用的情況,在文章末尾,簡單探討一下歸一化的使用場景。這樣更能凸顯重點,又能保持內容的完整性,暫時忘記歸一化,讓我們focus到標準化上吧。

四、邏輯迴歸必須要進行標準化嗎?

我覺得,回答完上面的問題,就可以很好地掌握標準化在機器學習中的運用。

首先,請嘗試自己來回答一下(暫停5秒)

無論你回答必須或者不必須,你都是錯的!

真正的答案是,這取決於我們的邏輯迴歸是不是用正則。

如果你不用正則,那麼,標準化並不是必須的,如果你用正則,那麼標準化是必須的。(暗坑3)

為什麼呢?

因為不用正則時,我們的損失函式只是僅僅在度量預測與真實的差距,加上正則後,我們的損失函式除了要度量上面的差距外,還要度量引數值是否足夠小。而引數值的大小程度或者說大小的級別是與特徵的數值範圍相關的。舉例來說,我們用體重預測身高,體重用kg衡量時,訓練出的模型是: 身高 = 體重*x x就是我們訓練出來的引數。

當我們的體重用噸來衡量時,x的值就會擴大為原來的1000倍。

在上面兩種情況下,都用L1正則的話,顯然對模型的訓練影響是不同的。

假如不同的特徵的數值範圍不一樣,有的是0到0.1,有的是100到10000,那麼,每個特徵對應的引數大小級別也會不一樣,在L1正則時,我們是簡單將引數的絕對值相加,因為它們的大小級別不一樣,就會導致L1最後只會對那些級別比較大的引數有作用,那些小的引數都被忽略了。

如果你回答到這裡,面試官應該基本滿意了,但是他可能會進一步考察你,如果不用正則,那麼標準化對邏輯迴歸有什麼好處嗎?

答案是有好處,進行標準化後,我們得出的引數值的大小可以反應出不同特徵對樣本label的貢獻度,方便我們進行特徵篩選。如果不做標準化,是不能這樣來篩選特徵的。

答到這裡,有些厲害的面試官可能會繼續問,做標準化有什麼注意事項嗎?

最大的注意事項就是先拆分出test集,不要在整個資料集上做標準化,因為那樣會將test集的資訊引入到訓練集中,這是一個非常容易犯的錯誤!

五、通過例子來說明

我們先從簡單的預測房價的線性迴歸模型開始:

有一組關於房價和房子變數的資料集,通過房子的面積,房間數量,房子的層數來預測房價。

佔地面積1800尺,房間數量3間,房子層數2層-> 房價?;

為了方便對比,我們分別看一下標準化前和標準化後的模型輸出分佈是怎麼樣的。

 

 

可以看出,標準化前後變數的係數不同,誤差不同,但是R平方,和變數的t值是相同的。

5.1 解釋有區別嗎?

那標準化前後得到的公式,怎麼來解釋呢?

 

 

當一個外行人在聽解釋的時候,一定會問,什麼呀?所有東西都是0,空氣造的房子還能賣9萬?!

接著你會問,係數不同,那預測出來的房價會相同嗎?

5.2 預測值有區別嗎?

現在我們來預測一個1590尺,3個臥室,3層的房屋

 

 

我們發現預測出來的房價是一樣的。

這時你一定會想,既然結果都一樣,做不做標準化,都一樣嘛。說到這裡,我們再看一下,建模時尋找最優解的時間吧。

5.3 花費時間有區別嗎?

 

 

 

 

 

 

為什麼標準化後的建模時間會短呢?這時候就要說起尋找係數最優解-梯度下降法。

標準化前,由於變數的單位相差很大,導致了橢圓型的梯度輪廓。標準化後,把變數變成統一單位,產生了圓形輪廓。由於梯度下降是按切線方向下降,所以導致了系統在橢圓輪廓不停迂迴地尋找最優解,而圓形輪廓就能輕鬆找到了。

還有一種比較極端的情況,有時沒做標準化,模型始終找不到最優解,一直不收斂。

5.4 PCA,Kmeans,KNN需要標準化資料嗎?

這種情況下,可見標準化的重要性了吧。

我們再來看一下,如果將預測房價的變數,用PCA方法來降維,會不會對結果產生影響。

我們看出在標準化前,用一個成分就能解釋99%的變數變化,而標準化後一個成分解釋了75%的變化。 主要原因就是在沒有標準化的情況下,我們給了居住面積過大權重,造成了這個結果。

 

 

 

 

那還有什麼情況下,不做歸一化會發生這麼大的影響?

Kmeans,KNN一些涉及到距離有關的演算法,或者聚類的話,都是需要先做變數標準化的。

舉個例子,我們將3個城市分成兩類,變數有面積和教育程度佔比;三個城市分別是這樣的:

城市A,面積挺大,但是整天發生偷盜搶劫,教育程度低;
城市B,面積也挺大,治安不錯,教育程度高;
城市C,面積中等,治安也挺好,教育程度也挺高;

 

 

 

 

我們如果不做標準化,直接做聚類模型的話,A城市和B城市分在一塊兒了,你想想,一個治安挺好的城市和一個整體偷盜搶劫城市分在一起,實在是有點違反常理。

六、總結

Tree-based models doesn’t depend on scaling

Non-tree-based models hugely depend on scaling

有時候,我們必須要特徵在0到1之間,此時就只能用歸一化。有種svm可用來做單分類,裡面就需要用到歸一化,由於沒有深入研究,所以我把連結放上,感興趣的可以自己看。

當然,也不是所有的模型都需要做歸一的,比如模型演算法裡面有沒關於對距離的衡量,沒有關於對變數間標準差的衡量。比如decision tree 決策樹,他採用演算法裡面沒有涉及到任何和距離等有關的,所以在做決策樹模型時,通常是不需要將變數做標準化的。

轉載:http://www.raincent.com/content-10-12066-1.html