資料預處理 —— 歸一化/標準化/正則化
阿新 • • 發佈:2019-02-11
一、標準化(Z-Score),或者去除均值和方差縮放
公式為:(X-mean)/std 計算時對每個屬性/每列分別進行。
將資料按期屬性(按列進行)減去其均值,並處以其方差。得到的結果是,對於每個屬性/每列來說所有資料都聚集在0附近,方差為1。
實現時,有兩種不同的方式:
-
使用sklearn.preprocessing.scale()函式,可以直接將給定資料進行標準化。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
>>>
from sklearn import preprocessing
>>>
import numpy
as np
>>>
X = np.array([[ 1 .,
- 1 .,
2 .],
...
[ 2 .,
0 .,
0 .],
...
[ 0 .,
1 .,
- 1 .]])
>>>
X_scaled = preprocessing.scale(X)
>>>
X_scaled array([[
0 .
..., - 1.22 ...,
1.33 ...],
[
1.22 ...,
0 .
..., - 0.26 ...],
[- 1.22 ...,
1.22 ...,
- 1.06 ...]])
>>>#處理後資料的均值和方差
>>>
X_scaled.mean(axis= 0 )
array([
0 .,
0 .,
|