資料預處理——標準化、歸一化、正則化
阿新 • • 發佈:2018-11-06
三者都是對資料進行預處理的方式,目的都是為了讓資料便於計算或者獲得更加泛化的結果,但是不改變問題的本質。
標準化(Standardization)
歸一化(normalization)
正則化(regularization)
歸一化
我們在對資料進行分析的時候,往往會遇到單個數據的各個維度量綱不同的情況,比如對房子進行價格預測的線性迴歸問題中,我們假設房子面積(平方米)、年代(年)和幾居室(個)三個因素影響房價,其中一個房子的資訊如下:
- 面積(S):150 平方米
- 年代(Y):5 年
這樣各個因素就會因為量綱的問題對模型有著大小不同的影響,但是這種大小不同的影響並非反應問題的本質。
為了解決這個問題,我們講所有的資料都用歸一化處理至同一區間內。
正則化
這篇文章對於正則化的講解通俗易懂:https://www.zhihu.com/question/20924039
正則化主要用於防止過擬合
我們在訓練模型時,要最小化損失函式,這樣很有可能出現過擬合的問題(引數過多,模型過於複雜),所以我麼在損失函式後面加上正則化約束項,轉而求約束函式和正則化項之和的最小值。
上式中,藍色部分即為損失函式,紅色部分是正則化項(引數的2-範數)
標準化
標準化也是將樣本的特徵轉化只同一量綱下的一種方法,標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈。
但是在機器學習的資料預處理中,歸一化和正則化更為常用。