數據的統計分析與描述
統計的任務 --> 由樣本推斷總體
1.頻數表與直方圖 -->將數據取值劃分區間,統計每個區間出現的次數
1)讀入數據並轉換為向量
2)[N,X]=hist(Y,M) Y行列均可、M為劃分的份數,默認為10、N返回M個小區間的頻數、X返回M個小區間的中點
2.統計量 -->加工後的反應樣本數量特征的函數
1)表示位置的統計量——算術平均值和中位數
mean(x)返回x的均值、median(x)返回中位數
2)表示變異程度的統計量——標準差、方差和極差
a.標準差 -->各個數據與均值偏離程度的度量 std(x)
b.方差 -->標準差的平方 var(x)
c.極差 -->最大值與最小值的差值 range(x)
3)中心矩、表示分布形狀的統計量——偏度和峰度 moment(x,order)返回order階中心距
a.x的標準化變量(減去期望除以方差)的三階中心矩成為偏度 -->反映了分布的對稱性,>0為右偏態,<0為左偏態 skewness(x)
b.四階中心距為峰度 -->正態分布的峰度為3,若比3大的多,說明樣本中含有較多遠離均值的數據 kurtosis(x)
3.分布函數、密度函數、上分位數:令分布函數F(x)=1-α的x值
4.常見的幾個分布
1)正態分布:0.68,0.95,0.997 norm
2)卡方分布:n個相互獨立的標準正態分布變量的平方和服從卡方分布 chi2
3)t分布 t
4)F分布 f
5)Matlab提供5類函數:pdf概率密度、cdf分布函數、inv分布函數反函數、stat均值與方差、rnd隨機數生成
5.參數估計 已知總體的分布,由樣本推斷總體的參數
1)點估計 -->由樣本確定總體參數的一個數值 評價:無偏性、最小方差性、有效性 方法:矩法、極大似然法
2)區間估計 -->給出一個區間,使得待估參數落在此區間內的概率為1-α,該區間成為置信區間,1-α為置信水平,α為顯著性水平
對於正態總體:[mu,sigma,muci,sigmaci]=normfit(x,alpha),x為樣本,alpha為顯著性水平
6.假設檢驗 對於總體的某些性質,提出假設,根據樣本對假設做出判斷是接受還是拒絕
1)方差已知,關於期望的檢驗(Z檢驗) [h,p,ci]=ztest(x,mu,sigma,alpha,tail) h=0對於H0接受,p表示在H0假設下樣本均值出現的概率,p越小H0越值得懷疑,ci是置信區間,tail是三種檢驗方式
2)方差未知,關於期望的檢驗(t檢驗) [h,p,ci]=ttest(x,mu,alpha,tail)
3)兩個正態總體的均值差的檢驗 [h,p,ci]=ttest2(x,y,alpha,tail) 方差不等時:h=ttest2(x,y,alpha,tail,‘unequal‘)
4)分布擬合檢驗
a.卡方檢驗 H0:總體x的分布函數是F(x) 若形式已知,參數未知,先用極大似然法估計參數,然後做檢驗
數據的統計分析與描述