1. 程式人生 > >資料預處理——標準化、歸一化、正則化

資料預處理——標準化、歸一化、正則化

三者都是對資料進行預處理的方式,目的都是為了讓資料便於計算或者獲得更加泛化的結果,但是不改變問題的本質。

標準化(Standardization)

歸一化(normalization)

正則化(regularization)

歸一化

我們在對資料進行分析的時候,往往會遇到單個數據的各個維度量綱不同的情況,比如對房子進行價格預測的線性迴歸問題中,我們假設房子面積(平方米)、年代(年)和幾居室(個)三個因素影響房價,其中一個房子的資訊如下:

  • 面積(S):150 平方米
  • 年代(Y):5 年

這樣各個因素就會因為量綱的問題對模型有著大小不同的影響,但是這種大小不同的影響並非反應問題的本質。

為了解決這個問題,我們講所有的資料都用歸一化處理至同一區間內。

正則化

這篇文章對於正則化的講解通俗易懂:https://www.zhihu.com/question/20924039

正則化主要用於防止過擬合

我們在訓練模型時,要最小化損失函式,這樣很有可能出現過擬合的問題(引數過多,模型過於複雜),所以我麼在損失函式後面加上正則化約束項,轉而求約束函式和正則化項之和的最小值

上式中,藍色部分即為損失函式,紅色部分是正則化項(引數的2-範數)

標準化

標準化也是將樣本的特徵轉化只同一量綱下的一種方法,標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈

但是在機器學習的資料預處理中,歸一化和正則化更為常用。