資料預處理——歸一化標準化

阿新 • • 發佈：2018-12-19

資料的標準化（normalization）是將資料按比例縮放，使之落入一個小的特定區間。

去除資料的單位限制，將其轉化為無量綱的純數值，便於不同單位或量級的指標能夠進行比較和加權

最典型的就是資料的歸一化處理，即將資料統一對映到[0,1]區間上

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import preprocessing 
% matplotlib inline

0-1標準化

又叫Max-Min標準化，公式：

x^{'} = \frac{x - m i n}{m a x - m i n}

$x' = \frac{x-min}{max-min}$

# 建立資料
df = pd.DataFrame({'value1' 
:np.random.rand(100)*10,
                   'value2':np.random.rand(100)*100})
print(df.head())
print('---------------')

def maxmin (df,*cols):
    df_m = df.copy()
    for col in cols:
        ma = df[col].max()
        mi = df[col].min()
        df_m[col + '_m'] = (df[col] - mi) / (ma - mi)
    return df_m
df1 = maxmin(df,'value1','value2')
print(df1.head())

     value1     value2
0  7.363287  15.749935
1  5.713568  33.233757
2  6.108123  21.522650
3  0.804442  85.003204
4  6.387467  21.264910
---------------
     value1     value2  value1_m  value2_m
0  7.363287  15.749935  0.740566  0.151900
1  5.713568  33.233757  0.574296  0.329396
2  6.108123  21.522650  0.614062  0.210505
3  0.804442  85.003204  0.079521  0.854962
4  6.387467  21.264910  0.642216  0.207888

# 使用 sklearn中的 scale 函式
minmax_scaler = preprocessing.MinMaxScaler()   # 建立 MinMaxScaler物件
df_m1 = minmax_scaler.fit_transform(df)    #  標準化處理
df_m1 = pd.DataFrame(df_m1,columns=['value1_m','value2_m'])
df_m1.head()

	value1_m	value2_m
0	0.740566	0.151900
1	0.574296	0.329396
2	0.614062	0.210505
3	0.079521	0.854962
4	0.642216	0.207888

Z-Score

也叫z分數，是一種具有相等單位的量數。它是將原始分數與團體的平均數之差除以標準差所得的商數，是以標準差為單位度量原始分數離開其平均數的分數之上多少個標準差，或是在平均數之下多少個標準差。
- 它是一個抽象值，不受原始測量單位的影響，並可接受進一步的統計處理
- 處理後的數值服從均值為0，方差為1的標準正態分佈。
- 一種中心化的方法，會改變原資料的資料分佈,不適用於對稀疏資料做處理

$z = \frac{x-\mu }{\sigma }$


def data_Znorm(df, *cols):
    df_n = df.copy()
    for col in cols:
        u = df_n[col].mean()
        std = df_n[col].std()
        df_n[col + '_Zn'] = (df_n[col] - u) / std
    return(df_n)
# 建立函式，標準化資料

df_z = data_Znorm(df,'value1','value2')
u_z = df_z['value1_Zn'].mean()
std_z = df_z['value1_Zn'].std()
print(df_z.head())
print('標準化後value1的均值為:%.2f, 標準差為：%.2f' % (u_z, std_z))
# 標準化資料
# 經過處理的資料符合標準正態分佈，即均值為0，標準差為1

# 什麼情況用Z-score標準化：
# 在分類、聚類演算法中，需要使用距離來度量相似性的時候，Z-score表現更好

     value1     value2  value1_Zn  value2_Zn
0  7.363287  15.749935   0.744641  -1.164887
1  5.713568  33.233757   0.196308  -0.550429
2  6.108123  21.522650   0.327450  -0.962008
3  0.804442  85.003204  -1.435387   1.268973
4  6.387467  21.264910   0.420298  -0.971066
標準化後value1的均值為:-0.00, 標準差為：1.00

# Z-Score標準化
zscore_scale = preprocessing.StandardScaler()
df_z1 = zscore_scale.fit_transform(df)
df_z1 = pd.DataFrame(df_z1,columns=['value1_z','value2_z'])
df_z1.head()

	value1_z	value2_z
0	0.748393	-1.170755
1	0.197297	-0.553202
2	0.329100	-0.966855
3	-1.442619	1.275366
4	0.422416	-0.975959

MaxAbs

最大值絕對值標準化，和MaxMin方法類似，將資料落入一定的區間[-1,1]，但是MaxAbs具有不破壞資料結構的特點，可以用於稀疏資料，或者
是係數的CSR（行壓縮）和CSC（列壓縮）矩陣（為矩陣的兩種儲存格式）

x^{'} = \frac{x}{| m a x |}

$x' = \frac{x}{\left |max \right |}$

# MaxAbs標準化
maxbas_scaler = preprocessing.MaxAbsScaler()
df_ma = maxbas_scaler.fit_transform(df)
df_ma = pd.DataFrame(df_ma,columns=['value1_ma','value2_ma'])
df_ma.head()

	value1_ma	value2_ma
0	0.740969	0.158626
1	0.574957	0.334715
2	0.614661	0.216766
3	0.080951	0.856112
4	0.642772	0.214170

RobustScaler

在某些情況下，假如資料中有離群點，我們可以使用Z-Score進行標準化，但是標準化後的資料並不理想，因為異常點的特徵往往在標準化後容易失去離群特徵，此時就可以用RobustScaler 針對離群點做標準化處理。

此方法對資料中心話和資料的縮放健壯性有更強的引數控制能力

————《Python資料分析與資料化運營》

# RobustScaler標準化
robustscaler = preprocessing.RobustScaler()
df_r = robustscaler.fit_transform(df)
df_r = pd.DataFrame(df_r,columns=['value1_r','value2_r'])
df_r.head()

	value1_r	value2_r
0	0.360012	-0.644051
1	0.055296	-0.303967
2	0.128174	-0.531764
3	-0.851457	0.703016
4	0.179770	-0.536777

繪製標準化散點圖

data_list = [df, df_m1, df_ma, df_z1, df_r]
title_list = ['soure_data', 'maxmin_scaler', 
              'maxabs_scaler', 'zscore_scaler',
              'robustscaler']
fig = plt.figure(figsize=(12,6))
for i,j in enumerate(data_list):
#  對於一個可迭代的（iterable）/可遍歷的物件（如列表、字串），enumerate將其組成一個索引序列，
#  利用它可以同時獲得索引和值,enumerate多用於在for迴圈中得到計數'''
    plt.subplot(2,3,i+1)
    plt.scatter(j.iloc[:,:-1],j.iloc[:,-1])
    plt.title(title_list[i])

這裡寫圖片描述

【轉】關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化

一、標準化（Z-Score），或者去除均值和方差縮放公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。實現時，有兩種不同的方式：

資料預處理——歸一化標準化

資料的標準化（normalization）是將資料按比例縮放，使之落入一個小的特定區間。去除資料的單位限制，將其轉化為無量綱的純數值，便於不同單位或量級的指標能夠進行比較和加權最典型的就是資料的歸一化處理，即將資料統一對映到[0,1]區間上 import nu

關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化

一、標準化（Z-Score），或者去除均值和方差縮放公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。實現時，有兩種不同的方

使用sklearn進行資料預處理 —— 歸一化/標準化/正則化

本文主要是對照scikit-learn的preprocessing章節結合程式碼簡單的回顧下預處理技術的幾種方法，主要包括標準化、資料最大最小縮放處理、正則化、特徵二值化和資料缺失值處理。內容比較簡單，僅供參考！首先來回顧一下下面要用到的基本知識。均值公式：

資料預處理 —— 歸一化/標準化/正則化

一、標準化（Z-Score），或者去除均值和方差縮放公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。實

Python資料預處理—歸一化，標準化，正則化

>>> X_train = np.array([[ 1., -1., 2.], ... [ 2., 0., 0.], ... [ 0., 1., -1.]]) ... >>> min_max_scaler = preprocessing.MinMaxScaler() >

python之sklearn常見資料預處理歸一化方式解析

標準歸一化歸一化到均值為0，方差為1 sklearn.preprocessing.scale函式：Standardize a dataset along any axis 先貼出主要的原始碼，乍一看，很亂，其實細看之下，就是多了一些判斷稀疏矩陣之類

資料預處理--輸入歸一化/標準化/放縮

輸入歸一化/標準化 Alex 和 Caffe中的初始化引數都是基於均值歸一化的，如果不做歸一化，會因為輸入大了一半，導致訓練失敗。這也是為什麼Caffe強制為樣本計算影象均值的原因。這樣，畫素值[0,255]被調整成了近似[-128,128]。儘管影象資料格式規整，但是做一

資料特徵歸一化/標準化方法

歸一化/標準化定義歸一化：就是將訓練集中數值特徵的值縮放到0和1之間。公式如下標準化：就是將訓練集中數值特徵的值縮放成均值為0，方差為1的狀態。公式如下需要先計算出均值和標準差，下面是標準差的計算公式 μ表示均值，x*表示標準化的表示式優點

長短期記憶（LSTM）系列_LSTM的資料準備（4）——如何歸一化標準化長短期記憶網路的資料

導讀：在訓練神經網路（例如長短期記憶復現神經網路）時，可能需要縮放序列預測問題的資料。當輸入資料序列分佈並不標準，或者變化幅度（標準差）過大時，這會減慢網路的學習和收斂速度，也會阻礙網路的學習效率。因此您需要了解如何歸一化和標準化序列預測資料，以及如何確定將哪中形式用於輸入和輸出變

資料歸一化/標準化

方法1：歸一化（normalization）:將值轉化為0—1之間 &n

數據歸一化/標準化

創建 mat bubuko random ali n) 課程綜合標準 ‘‘‘ 【課程2.3】數據歸一化/標準化數據的標準化（normalization）是將數據按比例縮放，使之落入一個小的特定區間。在某些比較和評價的指標處理中經常會用到，去除數

MATLAB中實現資料 [0,1] 歸一化

記錄一下，在做機器學習時，資料處理部分要花很多精力。資料處理的方式有很多種，今天記錄的是[0,1]歸一化，該法可以避免在較大數值範圍內的特性凌駕於較小數值範圍內的特性，先看下原理。設序列代表特性A，對它們進行變換則得到的新序列下面看程式碼： clc clear all %

第十九天分水嶺及歸一化標準化

pyrMeanShiftFiltering。這個函式嚴格來說並不是影象的分割，而是影象在色彩層面的平滑濾波，它可以中和色彩分佈相近的顏色，平滑色彩細節，侵蝕掉面積較小的顏色區域歸一化（normalization）： &

歸一化----標準化---正則化----Python的實現

1、(0,1)標準化： from sklearn.preprocessing import MinMaxScaler 這是最簡單也是最容易想到的方法，通過遍歷feature vector裡的每一個列資料，將Max和Min的記錄下來，並通過Max-Min作為基數（即Min=

CS231n 卷積神經網路與計算機視覺 6 資料預處理權重初始化規則化損失函式等常用方法總結

1 資料處理首先註明我們要處理的資料是矩陣X，其shape為[N x D] (N =number of data, D =dimensionality). 1.1 Mean subtraction 去均值去均值是一種常用的資料處理方式.它是將各個特徵值減去其均

TensorFlow 影象資料預處理及視覺化

注：文章轉自《慢慢學TensorFlow》微信公眾號影象是人們喜聞樂見的一種資訊形式，“百聞不如一見”，有時一張圖能勝千言萬語。影象處理是利用計算機將數值化的影象進行一定（線性或非線性）變換獲得更好效果的方法。Photoshop，美顏相機就是利用影象處理技術的應用程

歸一化(標準化)兩種常用方法

資料標準化（歸一化）處理是資料探勘的一項基礎工作，不同評價指標往往具有不同的量綱和量綱單位，這樣的情況會影響到資料分析的結果，為了消除指標之間的量綱影響，需要進行資料標準化處理，以解決資料指標之間的可比性。原始資料經過資料標準化處理後，各指標處於同一數量級，適合進行綜合對比評價。以下是兩種常用的歸一化方法

機器學習資料標準和歸一化

很多時候我們需要對資料集裡面的資料進行標準化和歸一化處理。例如： X={年齡(年），體重（kg）} 和 X={年齡（年），體重（g）}，雖然邏輯上表達的同樣的含義，但是反應在資料上兩個分量卻是相差特別大。這個時候我們往往希望兩個分量的值不會因為量綱不同而差

為什麼要做特徵歸一化/標準化？

目錄寫在前面常用feature scaling方法計算方式上對比分析 feature scaling 需要還是不需要什麼時候需要feature scaling？什麼時

資料預處理——歸一化標準化

0-1標準化

Z-Score

MaxAbs

RobustScaler

繪製標準化散點圖

相關推薦