1. 程式人生 > >資料預處理——基本統計描述(一)

資料預處理——基本統計描述(一)

        如果想要進行一次成功的資料預處理,把握資料的全貌是至關重要的。而基本統計描述可以用來識別資料的性質,即資料的分佈特點,如離散點的識別問題等。

  • 中心趨勢度量:均值、中位數、眾數
  1. 均值:衡量一組資料的平均水平,不必多說。可是需要主要的是若資料之間的對結果的影響程度是不一樣的,那麼可以採用加權均值,通過權重來改變各個變數對均值的影響程度。但是,均值對於極值點很敏感,所以也常常採用截尾均值,即去除一個最大值和一個最小值。
  2. 中位數:如果資料的分佈呈現的是非對稱(傾斜)狀,使用均值描述則容易受到弱側資料的影響導致存在偏差,這時採用中位數會比均值更加合理。
  3. 眾數:對於適度傾斜的資料,眾數也是一個不錯的選擇,若均值和中位數已知,可以做一個近似計算來估計眾數:

mean-mode\approx 3\times (mean-median)

 

  • 度量資料散佈:極差、四分位數、方差、標準差和四分位數極差
  1. 極差:該集合的最大值和最小值。極大值和極小值很有可能是離散點,對於實驗結果的作用並不是總是充滿善意,但用於衡量資料分佈的離散程度倒是有些許用處,如若最大值和中位數相差過大,則有理由懷疑資料的分散程度很高,但並不絕對,這只是一個大致的估計量。
  2. 四分位數:通常是三個將集合平均劃分為四等份的三個點。假設1/4處的點為p,3/4處的點為q,p與q的差額,也稱四分位數極差,是衡量散步的一個簡單度量,用於測算中間部分所佔比例。
  3. 五數概括:對於傾斜分佈,任何一個單一的數值度量都不是很理想,因此採用中位數、四分位數p與q、最小和最大值的組合進行衡量。
  4. 盒圖:體現五數概括的一種圖形表示方法,有以下四個規定:(1)盒的端點在四分位點處;(2)中位數用盒內線進行標記;(3)盒外兩條線延伸到最小和最大值
  5. 方差和標準差:低標準差意味著資料更加趨近於均值,波動更小,資料分佈離散程度越低。
  • 資料的基本統計描述的圖形顯示:分位數圖、分位數-分位數圖、直方圖、散點圖。分位數-分位數圖是用來衡量兩個集合的資料分佈相似程度,也可以說是否存在漂移,繪圖的方法是:x軸為集合1,y軸為集合2,在集合1中25%處的數值為2,在集合2中25%處的數值為3,則(2,3)為圖中一個點。注:y=x為兩個集合相似情況下的曲線。
    ​​​​​​​