1. 程式人生 > >資料的兩種歸一化方法

資料的兩種歸一化方法

資料標準化(歸一化)處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。

一般而言,資料的標準化(normalization)是將資料按比例縮放,使之落入一個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。

以下是兩種常用的歸一化方法:

一、min-max標準化(Min-Max Normalization)

也稱為離差標準化,是對原始資料的線性變換,使結果值對映到[0 - 1]之間。轉換函式如下:

clip_image002

其中max為樣本資料的最大值,min為樣本資料的最小值。這種方法有個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義。

二、Z-score標準化方法(zero-mean normalization)

零均值標準化,這種方法給予原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。經過處理的資料符合標準正態分佈,即均值為0,標準差為1,轉化函式為:

clip_image004

其中clip_image006為所有樣本資料的均值,clip_image008為所有樣本資料的標準差。

其他的還有取對數和三角函式進行標準化,如下面的log函式標準化,atan函式標準化。

log函式轉換

  通過以10為底的log函式轉換的方法同樣可以實現歸一下,具體方法如下:

 max為樣本資料最大值,並且所有的資料都要大於等於1。

atan函式轉換

  用反正切函式也可以實現資料的歸一化:

  使用這個方法需要注意的是如果想對映的區間為[0,1],則資料都應該大於等於0,小於0的資料將被對映到[-1,0]區間上。


上述標準化資料時還要注意資料本身的分佈特點,比如多數自然和生活中的資料都是呈現正態分佈,如果強行採用另一種標準化方法進行處理,最後會畸變成不是原來資料應該呈現的樣子。