1. 程式人生 > >資料標準化的方法與意義

資料標準化的方法與意義

含義

資料標準化和歸一化存在區別
資料歸一化是資料標準化的一種典型做法,即將資料統一對映到[0,1]區間上.
資料的標準化是指將資料按照比例縮放,使之落入一個特定的區間.

意義

  1. 求解需要
    比如在SVM中處理分類問題是又是需要進行資料的歸一化處理,不然會對準確率產生很大的影響,具體點說,比如避免出現因為數值過大導致c,g取值超過尋優範圍

    除此之外,最明顯的是在神經網路中的影響,主要有四個層面

    • 有利於初始化的進行
    • 避免給梯度數值的更新帶來數值問題
    • 有利於學習率數值的調整
    • 搜尋軌跡:加快尋找最優解速度

    資料歸一化 對 搜尋軌跡的影響

具體情況請參考:神經網路為什麼要歸一化:

沒有歸一化前,尋找最優解的過程:
歸一化前求解


歸一化後的過程:
歸一化後求解
3. 無量綱化(業務上需求上的):

指去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或者量級的指標能夠進行和加權.
比如身高與體重,房子數量與收入等.
4. 數值問題

不歸一化的數值,比如浮點數可能會產生數值不相等的問題.
5. 數值範圍減小對許多演算法在純粹的數值計算上都有一定加速作用(個人看法,雖然影響不大,但效果還是有的)

常用公式

  1. min-max標準化(Min-max normalization)

又名離差標準化,是對原始資料的線性轉化,公式如下

離差標準化公式

含義: max : 樣本最大值; min: 樣本最小值;
問題: 當有新資料加入時需要重新進行資料歸一化
2. z-score 標準化(zero-mean normalization)

又名標準差標準化,歸一化後的資料呈正態分佈,即均值為零,標準差為一公式如下:

標準差標準化

其中μ為所有樣本資料的均值,σ為所有樣本資料的標準差。與離差標準化的不同之處在於,離差標準化僅僅僅僅對原資料的的方差與均差進行了倍數縮減,而標準差標準化則使標準化的資料方差為一。這對許多的演算法更加有利,但是其缺點在於假如原始資料沒有呈高斯分佈,標準化的資料分佈效果並不好。
3. atan反正切函式標準化

公式如下:

反正切函式標準化

問題: 資料必須大於零,大於零的函式將會被對映到[-1,0]上

atan函式影象如下:

atan函式影象
4. log函式標準化

公式如下:

log-function

問題:
a . 資料必須大於等於一
b. 如果數值大於10**10(十的十次方),那麼對映的資料將大於一
解決問題b 的方案,改變公式以類似於 ” min-max標準化的方式 “, 如下:

改進後的log標-function

max: 樣本最大值
通過 ” /log10(max) ” 值得方式,可以保證所有樣本能夠正確的對映到[0,1]空間,

相關推薦

資料標準化方法意義

含義 資料標準化和歸一化存在區別 資料歸一化是資料標準化的一種典型做法,即將資料統一對映到[0,1]區間上. 資料的標準化是指將資料按照比例縮放,使之落入一個特定的區間. 意義 求解需要 比如在SVM中處理分類問題是又是需要進行資料的歸一化處理

處理海量資料方法思路

處理海量資料是大資料工程師必備技能,通過對PB級別的資料進行挖掘與分析發掘出有價值的資訊,為企業或政府做出正確決策提供依據,是十分必要的一項工作,以下是常用的海量資料處理方法! 1. Bloom filter Bloom filter是一種二進位制向量資料結構,具有很好的空間效率和時間效率,

資料分析方法模型都有哪些?

現在的大資料的流行程度不用說大家都知道,大資料離不開資料分析,而資料分析的方法和資料分析模型多種多樣,按照資料分析將這些資料分析方法與模型分為對比分析、分類分析、相關分析和綜合分析四種方式,這四種方式的不同點前三類以定性的資料分析方法與模型為主,綜合類資料分析方法與模型是注重定性與定量

三種常用資料標準化方法

引入 評價是現代社會各領域的一項經常性的工作,是科學做出管理決策的重要依據。隨著人們研究領域的不斷擴大,所面臨的評價物件日趨複雜,如果僅依據單一指標對事物進行評價往往不盡合理,必須全面地從整體的角度考慮問題,多指標綜合評價方法應運而生。所謂多指標綜合評價方法,就

Python資料標準化儲存獲取

from sklearn.preprocessing import MinMaxScaler from sklearn.externals import joblib scaler = MinMaxSc

轉載 STM32簡單資料傳輸方法通訊協議(適合串列埠和一般匯流排)

版權宣告:謝謝你那麼厲害還看了我的文章,歡迎轉載交流學習~    https://blog.csdn.net/kilotwo/article/details/79307090 引言 在一般的專案開發過程中,往往需要兩塊或以上微控制器進行通訊完成資料傳輸,例如四旋翼無人機

CALIPSO資料下載方法視覺化

集結號 大氣、海洋、陸地遙感交流QQ群:831106035。歡迎大家的加入,群內可以討論與大氣、陸地、海洋…遙感相關的問題,可以分享與上述興趣相關的資源。祝大家學習愉快。 引言 CALIPSO (Cloud–Aerosol Lidar and Infrared

Python3實現常用資料標準化方法

資料標準化是機器學習、資料探勘中常用的一種方法。包括我自己在做深度學習方面的研究時,資料標準化是最基本的一個步驟。資料標準化主要是應對特徵向量中資料很分散的情況,防止小資料被大資料(絕對值)吞併的情況。另外,資料標準化也有加速訓練,防止梯度爆炸的作用。下面是從李

JavaScript的函式(定義解析、匿名函式、函式傳參、return關鍵字)和陣列(操作資料方法、多維陣列、陣列去重)

函式 函式就是重複執行的程式碼片。 1、函式定義與執行 <script type="text/javascript"> // 函式定義 function aa(){ alert('hello!'); } // 函式執行

資料特徵 歸一化/標準化 方法

歸一化/標準化 定義 歸一化:就是將訓練集中數值特徵的值縮放到0和1之間。公式如下 標準化:就是將訓練集中數值特徵的值縮放成均值為0,方差為1的狀態。公式如下 需要先計算出均值和標準差,下面是標準差的計算公式 μ表示均值,x*表示標準化的表示式 優點

資料探勘資料化運營實戰:思路、方法、技巧應用》第一章 什麼是資料化運營

《資料探勘與資料化運營實戰:思路、方法、技巧與應用》電子書地址:http://www.chforce.com/books/datamining-om-by-data/index.html 資料化運營實施的前提條件包括企業級海量資料儲存的實現、精細化運營的需求(與傳統的粗放型運營相對比)、資料分析

面向物件開發方法面向資料流的結構化開發方法有什麼不同?

(1)結構化開發方法是使用最廣泛、歷史最長的過程化開發方法。結構化開發方法產生過程的抽象,這些抽象把軟體視為 處理流,定義構成一系列步驟的演算法,每一步驟都是帶有預定義輸入和特定輸出的一個過程,把這些步驟串聯在一起可產生合理 的穩定的貫通於整個程式的控制流。這將最終導致一個很簡單的具有靜

sklearn 標準化資料方法

Sklearn 標準化資料 from __future__ import print_function from sklearn import preprocessing import numpy as np from sklearn.model_selection import train_test_s

海量資料處理:十道面試題十個海量資料處理方法總結(大資料演算法面試題)

第一部分、十道海量資料處理面試題 1、海量日誌資料,提取出某日訪問百度次數最多的那個IP。       首先是這一天,並且是訪問百度的日誌中的IP取出來,逐個寫入到一個大檔案中。注意到IP是32位的,最多有個2^32個IP。同樣可以採用對映的方法

Excel中的使用相同公式的方法連續數字的方法,以及在每個單元格資料右下角新增逗號,round函式

         一、 Excel中的使用相同公式的方法  比如,你選擇一列或者用shift選擇對應的資料,shift鍵不放鬆,繼續點選第一位資料並按Ctrl鍵,然後輸入=與公式,最後按Ctrl+enter,這就完成對應資料使用相同的公式。         二、連續數字的

PCB資料:平衡PCB層疊設計方法避免設計中串擾

平衡PCB層疊設計方法 平衡結構避免彎曲 不用奇數層設計PCB的最好的理由是:奇數層電路板容易彎曲。當PCB在多層電路粘合工藝後冷卻時,核結構和敷箔結構冷卻時不同的層壓張力會引起PCB彎曲。隨著電路板厚度的增加,具有兩個不同結構的複合PCB彎曲的風險就越大。消除電路板彎曲

STM32f407STM32F103 串列埠採用DMA收發資料配置方法的異同

最近有個專案需要用到STM32F407ZET6這款晶片,其中有一個串列埠收發資料的應用。因為之前有用過STMF32F103ZET6通過DMA收發資料的方案,所以我打算移植之前的程式碼實現這個功能,STM32F103的DMA相關介紹參見STM32F103 DMA介紹 之前專案使用的程式碼如下:

海量資料處理:十道面試題十個海量資料處理方法總結

第一部分、十道海量資料處理面試題 1、海量日誌資料,提取出某日訪問百度次數最多的那個IP。 首先是這一天,並且是訪問百度的日誌中的IP取出來,逐個寫入到一個大檔案中。注意到IP是32位的,最多有個2^32個IP。同樣可以採用對映的方法,比如模1000,把整個大檔

一種實時映象的伺服器資料線上備份方法流程

www.syncnavigator.cn SyncNavigator 做資料同步時所支援的資料庫型別: 支援sqlserver 2000-2014所有版本,全相容,和MYsql 4.x 、MYsql 5.x 、MYsql 6.x版本。 來源資料庫和目標資料庫可以版本不同