資料歸一化(標準化)
阿新 • • 發佈:2018-12-11
資料歸一化
資料預處理中,標準的第一步是資料歸一化。雖然這裡有一系列可行的方法,但是這一步通常是根據資料的具體情況而明確選擇的。特徵歸一化常用的方法包含如下幾種:
- min-max標準化
- 逐樣本均值消減(也稱為移除直流分量)
-
Z-score
標準化(使資料集中所有特徵都具有零均值和單位方差)
min-max標準化(Min-Max Normalization)(線性函式歸一化)
定義:也稱為離差標準化,是對原始資料的線性變換,使得結果對映到0-1之間。
本質:把數變為[0,1]之間的小數。
轉換函式:(X-Min/(Max-Min)
如果想要將資料對映到[-1,1],則將公式換成:(X-Mean/(Max-Min)
其中:max為樣本資料的最大值,min為樣本資料的最小值,Mean表示資料的均值。
缺陷:當有新資料加入時,可導致max和min的變化,需要重新定義。
Z-score標準化
定義:這種方法給與原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。經過處理的資料符合標準正態分佈,即均值為0,標準差為1.
本質:把有量綱表示式變成無量綱表示式。
轉換函式:(X-Mean)/(Standard deviation)
其中,Mean為所有樣本資料的均值。Standard deviation為所有樣本資料的標準差。
逐樣本均值消減
如果你的資料是平穩
Eg:對於影象,這種歸一化可以移除影象的平均亮度值 (intensity)。很多情況下我們對影象的照度並不感興趣,而更多地關注其內容,這時對每個資料點移除畫素的均值是有意義的。
注意:雖然該方法廣泛地應用於影象,但在處理彩色影象時需要格外小心,具體來說,是因為不同色彩通道中的畫素並不都存在平穩特性。