1. 程式人生 > >三種常用資料標準化方法

三種常用資料標準化方法

引入

評價是現代社會各領域的一項經常性的工作,是科學做出管理決策的重要依據。隨著人們研究領域的不斷擴大,所面臨的評價物件日趨複雜,如果僅依據單一指標對事物進行評價往往不盡合理,必須全面地從整體的角度考慮問題,多指標綜合評價方法應運而生。所謂多指標綜合評價方法,就是把描述評價物件不同方面的多個指標的資訊綜合起來,並得到一個綜合指標,由此對評價物件做一個整體上的評判,並進行橫向或縱向比較。

而在多指標評價體系中,由於各評價指標的性質不同,通常具有不同的量綱和數量級。當各指標間的水平相差很大時,如果直接用原始指標值進行分析,就會突出數值較高的指標在綜合分析中的作用,相對削弱數值水平較低指標的作用。因此,為了保證結果的可靠性,需要對原始指標資料進行標準化處理。

目前資料標準化方法有多種,歸結起來可以分為直線型方法(如極值法、標準差法)、折線型方法(如三折線法)、曲線型方法(如半正態性分佈)。不同的標準化方法,對系統的評價結果會產生不同的影響,然而不幸的是,在資料標準化方法的選擇上,還沒有通用的法則可以遵循

常見的方法有:min-max標準化(Min-max normalization),log函式轉換,atan函式轉換,z-score標準化(zero-mena normalization,此方法最為常用),模糊量化法。本文只介紹min-max法(規範化方法),z-score法(正規化方法),比例法(名字叫啥不太清楚,歸一化方法)。 資料的標準化(normalization)是將資料按比例縮放,使之落入一個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到[0,1]區間上,常見的資料歸一化的方法有:min-max標準化(Min-maxnormalization)也叫離差標準化,是對原始資料的線性變換,使結果落到[0,1]區間,轉換函式如下:其中max為樣本資料的最大值,min為樣本資料的最小值。這種方法有一個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義。log函式轉換通過以10為底的log函式轉換的方法同樣可以實現歸一下,具體方法如下:看了下網上很多介紹都是x*=log10(x),其實是有問題的,這個結果並非一定落到[0,1]區間上,應該還要除以log10(max),max為樣本資料最大值,並且所有的資料都要大於等於1。atan函式轉換用反正切函式也可以實現資料的歸一化:使用這個方法需要注意的是如果想對映的區間為[0,1],則資料都應該大於等於0,小於0的資料將被對映到[-1,0]區間上。而並非所有資料標準化的結果都對映到[0,1]區間上,其中最常見的標準化方法就是Z標準化,也是SPSS中最為常用的標準化方法:z-score 標準化(zero-meannormalization)也叫標準差標準化,經過處理的資料符合標準正態分佈,即均值為0,標準差為1,其轉化函式為:其中μ為所有樣本資料的均值,σ為所有樣本資料的標準差。

什麼是資料標準化(Normalization)

將資料按比例縮放,使之落入一個小的特定區間。在某些比較評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權

有哪些常用方法呢?

規範化方法

  • 也叫離差標準化,是對原始資料的線性變換,使結果對映到[0,1]區間。

在這裡插入圖片描述

正規化方法

在這裡插入圖片描述

  • 這種方法基於原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。將A的原始值x使用z-score標準化到x’。
  • z-score標準化方法適用於屬性A的最大值和最小值未知的情況,或有超出取值範圍的離群資料的情況
  • spss預設的標準化方法就是z-score標準化。
  • 用Excel進行z-score標準化的方法:在Excel中沒有現成的函式,需要自己分步計算,其實標準化的公式很簡單。

步驟如下:

  1. 求出各變數(指標)的算術平均值(數學期望)xi和標準差si ;
  2. 進行標準化處理:zij=(xij-xi)/si 其中:zij為標準化後的變數值;xij為實際變數值。
  3. 將逆指標前的正負號對調。 標準化後的變數值圍繞0上下波動,大於0說明高於平均水平,小於0說明低於平均水平。

方法三:歸一化方法

在這裡插入圖片描述