機器學習中的歸一化

阿新 • • 發佈：2019-01-11

文章目錄

機器學習中為什麼需要歸一化

歸一化為什麼能提高梯度下降求解最優解的速度？
歸一化可能提高精度

歸一化常用的方法
歸一化與其中標準化的區別
使用標準化與歸一化的場景
哪些機器學習書演算法不需要歸一化

機器學習中為什麼需要歸一化

歸一化後加快了梯度下降求最優解的速度；
歸一化有可能提高精度

歸一化為什麼能提高梯度下降求解最優解的速度？

在這裡插入圖片描述
如上圖所示，藍色圓圈代表兩個特徵的的等高線。

左圖中兩個特徵區別相差特別大。其中一個特徵X1的區間是[0,2000],一個特徵X2[1,5],所形成的等高線比較尖銳。當時用梯度下降法時，很可能要垂直等高線走，需要很多次迭代才能收斂。

右圖中對兩個原始特徵進行了歸一化處理，其對應的等高線相對來說比較圓，在梯度下降時，可以較快的收斂。

歸一化可能提高精度

有些分類器需要計算樣本之間的距離，例如k-means。如果一個特徵的值域範圍特別大。那麼距離計算就主要取決於這個特徵，有時會與實際情況相違背。（比如這時實際情況是值域範圍小的特徵更重要）

歸一化常用的方法

線性比例變換法
$y_{i}$

= x i m a x

( x ) y_i=\frac{x_i}{max(x)} $y_{i} = \frac{x _{i}}{m a x ( x )}$
極差變換法：
$y_i=\frac{x_i-min(x)}{max(x)-min(x)}$
其中max為樣本資料的最大值，min為樣本資料的最小值，這種方法有缺陷
1）當有新資料加入時，可能導致max和min的變化，需要重新定義
2）存在極端的最大最小值
0均值標準化（Z-score方法標準化）
$y_i=\frac{x_i-mean(x)}{\sigma}$

歸一化與其中標準化的區別

歸一化和標準化本質上就是一種線性變換。
在資料給定下， $\alpha=X_{max}-X-{min}$ ,常數 $\beta=X_{min}$ 那麼歸一化的新的形式就是 $\frac{X_i-\beta}{\alpha}$ .與標準化類似，可以變一下
$\frac{X_i-\beta}{\alpha}=\frac{X_i}{\alpha}-\frac{\beta}{\alpha}=\frac{X_i}{\alpha}-c$
事實上就是對向量 X按照比例壓縮 $\alpha$ 再進行平移 c。所以歸一化和標準化的本質就是一種線性變換。
歸一化與標準化的區別
1. 歸一化的縮放是統一到區間（僅由極值決定），而標準化的縮放是更加“彈性”和“動態”的，和整體樣本的分佈有很大的關係。
2. 歸一化：縮放僅僅與最大最小值有關。
  標準化：縮放與每個點有關。通過方差和均值體現出來。
3. 歸一化：輸出範圍在0-1之間
  標準化：輸出範圍是負無窮到正無窮

使用標準化與歸一化的場景

如果對輸出結果範圍有要求，用歸一化
如果資料較為穩定，不存在極端的最大最小值，用歸一化
如果資料存在異常值和較多噪音，用標準化，可以間接通過中心化避免異常值和極端值的影響

哪些機器學習書演算法不需要歸一化

概率模型不需要歸一化，因為它們不關心變數的值，而是關心變數的分佈和變數之間的條件概率，如決策樹、rf。而像 adaboost、svm、lr、KNN、KMeans 之類的最優化問題就需
要歸一化。

百面機器學習-特徵歸一化

P002 1.為什麼要對數值做特徵歸一化? 1.為了消除資料特徵之間的量綱的影響. 2.常用的方法有哪些: 1.線性函式歸一化 2.零均值歸一化 3.常用情況 1.通過梯度下降法求解的模型通常是需要歸一化的,如線性迴歸,支援向量機,神經網路等. 2.決策樹模型並不適用

機器學習演算法——歸一化數值

#coding=utf-8 __author__ = 'whf' import numpy from kNN import file2matrix from numpy import * def a

機器學習------批歸一化（Batch Normalization, BN）

　　取自孫明的＂數字影象處理與分析基礎＂　　從字面意思上理解Batch Normalization就是對每一批資料進行歸一化，確實如此，對於訓練中某一個batch的資料{x1x1, x2x2, ……, xnxn}，注意這個資料可以是輸入也可以是中間某一層的

opencv中歸一化函式cv2.normalize()的原理講解

本篇文章參考部落格：https://blog.csdn.net/kuweicai/article/details/78988886 功能：歸一化函式引數：Python: cv2.normalize(src[, dst[, alpha[, beta[, norm_type[, dt

[work*] 機器學習中正則化項L1和L2的直觀理解

正則化（Regularization）機器學習中幾乎都可以看到損失函式後面會新增一個額外項，常用的額外項一般有兩種，一般英文稱作-norm和-norm，中文稱作L1正則化和L2正則化，或者L1範數和L2範數。 L1正則化和L2正則化可以看做是損失函式的懲罰項。所謂『懲罰

機器學習中L1L2規則化詳解（先驗及稀疏性解釋）

（作者：陳玓玏） 1、為什麼要正則化? 知乎上有個兄弟說得對（https://www.zhihu.com/question/20924039 這個問題下Stark Einstein的回答），不應該說是正則化，應該說是規則化，也就是說，我們原來是在完全沒有任何先

機器學習中正則化項L1和L2的直觀理解

正則化（Regularization）機器學習中幾乎都可以看到損失函式後面會新增一個額外項，常用的額外項一般有兩種，一般英文稱作ℓ1ℓ1-norm和ℓ2ℓ2-norm，中文稱作L1正則化和L2正則化，或者L1範數和L2範數。 L1正則化和L2正則化可以看做

機器學習中的規則化範數(L0, L1, L2, 核範數)

目錄：三、核範數今天我們聊聊機器學習中出現的非常頻繁的問題：過擬合與規則化。我們先簡單的來理解下常用的L0、L1、L2和核範數規則化。最後聊下規則化項引數的選擇問題。這裡因為篇幅比較龐大，為了不嚇到大家，我將這個五個部分分成兩篇博文。知識有限，以下都是我一些淺顯的看法，如果理解存在錯誤，希望大

資料預處理中歸一化（Normalization）與損失函式中正則化（Regularization）解惑

背景：資料探勘/機器學習中的術語較多，而且我的知識有限。之前一直疑惑正則這個概念。所以寫了篇博文梳理下摘要：　　1.正則化（Regularization）　　　　1.1 正則化的目的　　　　　1.2 結構風險最小化（SRM）理論　　　　1.3 L1範數

opencv中歸一化函式normalize()的原理講解

1. 歸一化歸一化就是要把需要處理的資料經過處理後（通過某種演算法）限制在你需要的一定範圍內。首先歸一化是為了後面資料處理的方便，其次是保證程式執行時收斂加快。歸一化的具體作用是歸納統一樣本的統計分佈性。歸一化在0-1之間是統計的概率分佈，歸一化在某個區間上是統計的座標分佈。

Hulu機器學習問題與解答系列 | 二十三：神經網絡訓練中的批量歸一化

導致 xsl 泛化能力恢復不同詳細過程 ice ini 來看看批量歸一化的有關問題吧！記得進入公號菜單“機器學習”，復習之前的系列文章噢。今天的內容是【神經網絡訓練中的批量歸一化】場景描述深度神經網絡的訓練中涉及諸多手調參數，如學習率，權重衰減系數，

機器學習中資料的歸一化處理

資料的標準化（normalization）是將資料按比例縮放，使之落入一個小的特定區間。在某些比較和評價的指標處理中經常會用到，去除資料的單位限制，將其轉化為無量綱的純數值，便於不同單位或量級的指標能夠進行比較和加權。　　其中最典型的就是資料的歸一化處理，即將資料統一對映到[0,1]區間上

機器學習中之規範化，中心化，標準化，歸一化，正則化，正規化

一、歸一化，標準化和中心化歸一化（Normalization）、標準化（Standardization）和中心化/零均值化（Zero-centered）標準化資料的標準化（normalization）是將資料按比例縮放（scale），使之落入一個小的特定區間。在某些比較和評價

機器學習中訓練集和測試集歸一化-matlab

本文不是介紹如何使用matlab對資料集進行歸一化，而是通過matlab來介紹一下資料歸一化的概念。以下內容是自己的血淚史，因為歸一化的錯誤，自己的實驗過程至少走了兩個星期的彎路。由此可見機器學習中一些基礎知識和概念還是應該紮實掌握。背景介紹：

機器學習中的歸一化

文章目錄機器學習中為什麼需要歸一化歸一化為什麼能提高梯度下降求解最優解的速度？歸一化可能提高精度歸一化常用的方法歸一化與其中標準化的區別使用標準化與歸一化的場景哪些機器學習書演算法不需要歸一化

機器學習中常見的幾種歸一化方法以及原因

在機器學習中，資料歸一化是非常重要，它可能會導致模型壞掉或者訓練出一個很奇怪的模型，為了讓機器學習的模型更加適合實際情況，需要對資料進行歸一化處理。 1.機器學習中常用的歸一化方法： 2. 不同歸一化方法分析： 2.1 線性變換和極差法（線性歸一化）將原始資料線性化的方

機器學習中的範數規則化之（一）L0、L1與L2範數

[0 證明基本上復雜度所有 img 方法風險機器學習機器學習中的範數規則化之（一）L0、L1與L2範數 [email protected]/* */ http://blog.csdn.net/zouxy09 轉自：http://blog.csdn.n

機器學習數據預處理——標準化/歸一化方法總結

目標 out enc 並不是 depend 區間 standards ima HA 通常，在Data Science中，預處理數據有一個很關鍵的步驟就是數據的標準化。這裏主要引用sklearn文檔中的一些東西來說明，主要把各個標準化方法的應用場景以及優缺點總結概括，以來充當

Bobo老師機器學習筆記-資料歸一化

實現演算法： def normalizate_max_min(X): """ 利用最大和最小化方式進行歸一化，過一化的資料集中在【0， 1】 :param X: :return: """ np.asarray(X, dty

機器學習歸一化(附Python實現原始碼)

# -*- coding: utf-8 -*- import inspect import math import numpy as np from sklearn import preprocessing def max_min_normalization(data_list):

機器學習中的歸一化

文章目錄

機器學習中為什麼需要歸一化

歸一化為什麼能提高梯度下降求解最優解的速度？

歸一化可能提高精度

歸一化常用的方法

歸一化與其中標準化的區別

使用標準化與歸一化的場景

哪些機器學習書演算法不需要歸一化

相關推薦