Sklearn資料預處理：scale, StandardScaler, MinMaxScaler, Normalizer

阿新 • • 發佈：2019-01-14

問題：怎麼讓一組資料平均數為0，方差為1

        有一組資料     X: {x1,x2,x3,.....,xn}      (1)
        設其平均值為：E(X) = μ                    (2)
        設其方差為  ：D(X) = σ²                  (3)
        那麼經過變換：y = (x - μ)/σ               (4)
        得到的新變數：Y: {y1,y2,y3,......yn}        (5)
        的均值為 0、方差為 1 。(證明略)

--------------------------------------------------------------

一、標準化

去除均值和方差縮放：通過(X-X_mean)/std計算每個屬性(每列)，進而使所有資料聚集在0附近，方差為1.

(1)、sklearn.preprocessing.scale()
直接將給定資料進行標準化

from sklearn import preprocessing
import numpy as np
X = np.array([[ 1., -1.,  2.],[ 2.,  0.,  0.],[ 0.,  1., -1.]])
X_scaled = preprocessing.scale(X)

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]] 
)

X_scaled.mean(axis=0)
array([ 0.,  0.,  0.])

X_scaled.std(axis=0)
array([ 1.,  1.,  1.])

(2)、sklearn.preprocessing.StandardScaler()
可儲存訓練集中的均值、方差引數，然後直接用於轉換測試集資料。

scaler = preprocessing.StandardScaler().fit(X)
scaler.transform(X)

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]] 
)

scaler.mean_
array([ 1.        ,  0.        ,  0.33333333])

scaler.var_
array([ 0.66666667,  0.66666667,  1.55555556])

二、縮放到指定範圍

將屬性縮放到一個指定的最大和最小值（通常是1-0）之間，這樣處理可對方差非常小的屬性增強其穩定性，也可維持稀疏矩陣中為0的條目。
preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True)
計算公式：
X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min
其中
feature_range : tuple (min, max), default=(0, 1)

minmaxscaler = preprocessing.MinMaxScaler().fit(X)
minmaxscaler.transform(X)

array([[ 0.5       ,  0.        ,  1.        ],
       [ 1.        ,  0.5       ,  0.33333333],
       [ 0.        ,  1.        ,  0.        ]])

minmaxscaler.scale_
array([ 0.5       ,  0.5       ,  0.33333333])

 minmaxscaler.min_ 
 array([ 0.        ,  0.5       ,  0.33333333])

也可直接應用fit_transform(X)實現fit和transform功能。

三、正則化

對每個樣本計算其p-範數，再對每個元素除以該範數，這使得每個處理後樣本的p-範數（l1-norm,l2-norm）等於1。如果後續要使用二次型等方法計算兩個樣本之間的相似性會有用。
preprocessing.Normalizer(norm=’l2’, copy=True)

normalizer = preprocessing.Normalizer().fit(X)
normalizer.transform(X)

array([[ 0.40824829, -0.40824829,  0.81649658],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

幾個概念

1-範數：向量各分量絕對值之和
2-範數：向量長度
最大範數：向量各分量絕對值的最大值
p-範數的計算公式：||X||p=(|x1|^p+|x2|^p+…+|xn|^p)^1/p

Sklearn資料預處理：scale, StandardScaler, MinMaxScaler, Normalizer

問題：怎麼讓一組資料平均數為0，方差為1

一、標準化

二、縮放到指定範圍

三、正則化

幾個概念

Sklearn資料預處理：scale, StandardScaler, MinMaxScaler, Normalizer

Sklearn.processing：scale, StandardScaler, MinMaxScaler, Normalizer

機器學習（一）：用sklearn進行資料預處理：缺失值處理、資料標準化、歸一化

Python：sklearn資料預處理中fit(),transform()與fit_transform()的區別

sklearn 資料預處理1: StandardScaler

sklearn資料預處理(preprocessing)系列——類別以及特徵的編碼(Encoder)

python資料預處理：資料標準化

python資料預處理：資料相關性

python資料預處理：資料共線性處理

python資料預處理：資料抽樣

python資料預處理：樣本分佈不均（過取樣和欠取樣）

python資料預處理：資料降維

python資料預處理：字元變數獨熱編碼(one-hot encoding)

python資料預處理：使用pandas 進行資料清洗

python資料預處理：資料離散化

資料預處理：One-Hot Encoding

3-6 用 Pandas 進行資料預處理：資料清洗與視覺化（版本：py3）

資料預處理：獨熱編碼（One-Hot Encoding）和 LabelEncoder標籤編碼

資料預處理：樣本非平衡處理

Python資料預處理：機器學習、人工智慧通用技術（1）

Sklearn資料預處理：scale, StandardScaler, MinMaxScaler, Normalizer

問題：怎麼讓一組資料平均數為0，方差為1

一、標準化

二、縮放到指定範圍

三、正則化

幾個概念

相關推薦