1. 程式人生 > >資料歸一化(標準化)

資料歸一化(標準化)

資料歸一化

資料預處理中,標準的第一步是資料歸一化。雖然這裡有一系列可行的方法,但是這一步通常是根據資料的具體情況而明確選擇的。特徵歸一化常用的方法包含如下幾種:

  • min-max標準化
  • 逐樣本均值消減(也稱為移除直流分量)
  • Z-score

    標準化(使資料集中所有特徵都具有零均值和單位方差)

min-max標準化(Min-Max Normalization)(線性函式歸一化)

定義:也稱為離差標準化,是對原始資料的線性變換,使得結果對映到0-1之間。

本質:把數變為[0,1]之間的小數。

轉換函式:(X-Min/(Max-Min)

如果想要將資料對映到[-1,1],則將公式換成:(X-Mean/(Max-Min)

其中:max為樣本資料的最大值,min為樣本資料的最小值,Mean表示資料的均值。

缺陷:當有新資料加入時,可導致max和min的變化,需要重新定義。

Z-score標準化

定義:這種方法給與原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。經過處理的資料符合標準正態分佈,即均值為0,標準差為1.

本質:把有量綱表示式變成無量綱表示式。

轉換函式:(X-Mean)/(Standard deviation)

其中,Mean為所有樣本資料的均值。Standard deviation為所有樣本資料的標準差。

逐樣本均值消減

如果你的資料是平穩

的(即資料每一個維度的統計都服從相同分佈),那麼你可以考慮在每個樣本上減去資料的統計平均值(逐樣本計算)。

Eg:對於影象,這種歸一化可以移除影象的平均亮度值 (intensity)。很多情況下我們對影象的照度並不感興趣,而更多地關注其內容,這時對每個資料點移除畫素的均值是有意義的。

注意:雖然該方法廣泛地應用於影象,但在處理彩色影象時需要格外小心,具體來說,是因為不同色彩通道中的畫素並不都存在平穩特性。