1. 程式人生 > >數據的統計分析與描述

數據的統計分析與描述

統計量 mea median 擬合 fit skew hist uci 出現的次數

統計的任務  -->  由樣本推斷總體

1.頻數表與直方圖  -->將數據取值劃分區間,統計每個區間出現的次數

  1)讀入數據並轉換為向量

  2)[N,X]=hist(Y,M)  Y行列均可、M為劃分的份數,默認為10、N返回M個小區間的頻數、X返回M個小區間的中點

2.統計量  -->加工後的反應樣本數量特征的函數

  1)表示位置的統計量——算術平均值和中位數

    mean(x)返回x的均值、median(x)返回中位數

  2)表示變異程度的統計量——標準差、方差和極差

    a.標準差  -->各個數據與均值偏離程度的度量  std(x)

    b.方差  -->標準差的平方  var(x)

    c.極差  -->最大值與最小值的差值  range(x)

  3)中心矩、表示分布形狀的統計量——偏度和峰度  moment(x,order)返回order階中心距

    a.x的標準化變量(減去期望除以方差)的三階中心矩成為偏度  -->反映了分布的對稱性,>0為右偏態,<0為左偏態  skewness(x)

    b.四階中心距為峰度  -->正態分布的峰度為3,若比3大的多,說明樣本中含有較多遠離均值的數據  kurtosis(x)

3.分布函數、密度函數、上分位數:令分布函數F(x)=1-α的x值

4.常見的幾個分布

  1)正態分布:0.68,0.95,0.997  norm

  2)卡方分布:n個相互獨立的標準正態分布變量的平方和服從卡方分布  chi2

  3)t分布  t

  4)F分布  f

  5)Matlab提供5類函數:pdf概率密度、cdf分布函數、inv分布函數反函數、stat均值與方差、rnd隨機數生成

5.參數估計  已知總體的分布,由樣本推斷總體的參數

  1)點估計  -->由樣本確定總體參數的一個數值  評價:無偏性、最小方差性、有效性  方法:矩法、極大似然法

  2)區間估計  -->給出一個區間,使得待估參數落在此區間內的概率為1-α,該區間成為置信區間,1-α為置信水平,α為顯著性水平

    對於正態總體:[mu,sigma,muci,sigmaci]=normfit(x,alpha),x為樣本,alpha為顯著性水平

6.假設檢驗  對於總體的某些性質,提出假設,根據樣本對假設做出判斷是接受還是拒絕

  1)方差已知,關於期望的檢驗(Z檢驗)  [h,p,ci]=ztest(x,mu,sigma,alpha,tail)  h=0對於H0接受,p表示在H0假設下樣本均值出現的概率,p越小H0越值得懷疑,ci是置信區間,tail是三種檢驗方式

  2)方差未知,關於期望的檢驗(t檢驗)  [h,p,ci]=ttest(x,mu,alpha,tail)

  3)兩個正態總體的均值差的檢驗  [h,p,ci]=ttest2(x,y,alpha,tail)  方差不等時:h=ttest2(x,y,alpha,tail,‘unequal‘)

  4)分布擬合檢驗

    a.卡方檢驗  H0:總體x的分布函數是F(x)  若形式已知,參數未知,先用極大似然法估計參數,然後做檢驗

數據的統計分析與描述