1. 程式人生 > >機器學習:樣本去中心化目的

機器學習:樣本去中心化目的

idt rac 相同 orm ans 預處理 特征 original 需要

作者:Spark
鏈接:https://www.zhihu.com/question/37069477/answer/132387124
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請註明出處。

在回歸問題和一些機器學習算法中,以及訓練神經網絡的過程中,通常需要對原始數據進行中心化(Zero-centered或者Mean-subtraction)處理和標準化(Standardization或Normalization)處理。
  • 目的:通過中心化和標準化處理,得到均值為0,標準差為1的服從標準正態分布的數據。
  • 計算過程由下式表示:技術分享
  • 下面解釋一下為什麽需要使用這些數據預處理步驟。
在一些實際問題中,我們得到的樣本數據都是多個維度的,即一個樣本是用多個特征來表征的。比如在預測房價的問題中,影響房價技術分享
的因素有房子面積技術分享、臥室數量技術分享等,我們得到的樣本數據就是技術分享這樣一些樣本點,這裏的技術分享技術分享又被稱為特征。很顯然,這些特征的量綱和數值得量級都是不一樣的,在預測房價時,如果直接使用原始的數據值,那麽他們對房價的影響程度將是不一樣的,而通過標準化處理,可以使得不同的特征具有相同的尺度(Scale)。這樣,在使用梯度下降法學習參數的時候,不同特征對參數的影響程度就一樣了。
  • 簡言之,當原始數據不同維度上的特征的尺度(單位)不一致時,需要標準化步驟對數據進行預處理。
  • 下圖中以二維數據為例:左圖表示的是原始數據;中間的是中心化後的數據,數據被移動大原點周圍;右圖將中心化後的數據除以標準差,得到為標準化的數據,可以看出每個維度上的尺度是一致的(紅色線段的長度表示尺度)。
技術分享
其實,在不同的問題中,中心化和標準化有著不同的意義,
  • 比如在訓練神經網絡的過程中,通過將數據標準化,能夠加速權重參數的收斂。
  • 另外,對於主成分分析(PCA)問題,也需要對數據進行中心化和標準化等預處理步驟。

機器學習:樣本去中心化目的