1. 程式人生 > >資料預處理 —— 歸一化/標準化/正則化

資料預處理 —— 歸一化/標準化/正則化

一、標準化(Z-Score),或者去除均值和方差縮放

公式為:(X-mean)/std  計算時對每個屬性/每列分別進行。

將資料按期屬性(按列進行)減去其均值,並處以其方差。得到的結果是,對於每個屬性/每列來說所有資料都聚集在0附近,方差為1。

實現時,有兩種不同的方式:

  • 使用sklearn.preprocessing.scale()函式,可以直接將給定資料進行標準化。

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 >>> from sklearn import preprocessing >>> import numpy as np >>> X = np.array([[ 1., -1.,  2.], ...               [ 2.,  0.,  0.], ...               [ 0.,  1., -1.]]) >>> X_scaled = preprocessing.scale(X) >>> X_scaled                                         
array([[ 0.  ..., -1.22...,  1.33...], [ 1.22...,  0.  ..., -0.26...], [-1.22...,  1.22..., -1.06...]]) >>>#處理後資料的均值和方差 >>> X_scaled.mean(axis=0) array([ 0.,  0.,