1. 程式人生 > >資料預處理之歸一化

資料預處理之歸一化

min_max_scaler = preprocessing.MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train)

X_test_minmax = min_max_scaler.transform(X_test)
2、標準差標準化   經過處理的資料符合標準正態分佈,即均值為0,標準差為1,其轉化函式為:
scaler = preprocessing.StandardScaler().fit(X_train)

scaler.transform(X_test)

3、非線性歸一化  經常用在資料分化比較大的場景,有些數值很大,有些很小。通過一些數學函式,將原始值進行對映。該方法包括 log、指數,正切等。需要根據資料分佈的情況,決定非線性函式的曲線,比如log(V, 2)還是log(V, 10)等。 當變數是正偏態分佈的時候,使用log(資料和圖片來源於kaggle房價預測比賽的discuss)