1. 程式人生 > >應用統計學與R語言實現學習筆記(五)——引數估計

應用統計學與R語言實現學習筆記(五)——引數估計

Chapter 5 Estimation

本篇是第五章,內容是引數估計。

1.引數估計的一般問題

正如前面介紹的,統計學的兩大分支,分別是描述統計和推斷統計。所以今天來談談推斷統計的第一大問題——引數估計。當然一般叫統計推斷的會更多些,二者是一樣的。
統計推斷(Statistical Inference)——主要包括引數估計和假設檢驗,實質就是通過樣本的均值、標準差、方差等去估計總體的均值、標準差、方差或者判斷總體的分佈形式和分佈引數。

  • 引數估計:根據從總體中抽得的樣本所提供的資訊,對總體分佈中包含的未知引數作出數值上的估計。
    點估計:用樣本的某一函式值來估計總體分佈中的未知引數;
    區間估計:按照一定的可靠度估計出引數的一個範圍,即確定一個區間,使這一個區間內包含引數真值的概率達到預先所要求的程度。
  • 假設檢驗:需要對總體的分佈形式或分佈引數事先作出某種假設,然後根據樣本觀測值,運用統計分析的方法來檢驗這一假設是否正確。

上一篇提到的,獲取樣本之後,我們需要去猜總體,引數估計就是猜總體的引數(分佈中所含的未知引數;分佈特徵:均值、方差等;事件的概率等)或者引數空間(引數的可能取值範圍)。
假設檢驗是下一章內容,這裡就不細述了。
首先明確兩個概念:估計量(estimator)與估計值(estimated value)。

  • 估計量: 用於估計總體引數的隨機變數,一般為樣本統計量(如樣本均值、 樣本比例、 樣本方差等; 例如:樣本均值就是總體均值μ的一個估計量)。
  • 估計值: 估計引數時計算出來的統計量的具體值,如果樣本均值=80, 則80就是總體均值的估計值。

既然是估計量,就必須有評價估計量的標準。一般包括以下幾點:

  • 無偏性:估計量的數學期望等於被估計的總體引數,樣本的隨機性導致估計偏差, 偏差平均值為0, 無系統誤差(所以在這裡又提出了漸進無偏估計:估計隨著樣本量的增加而逐漸趨近於真值。漸進無偏估計指系統偏差會隨著樣本量的增加而逐漸減小,趨於0,在大樣本時可近似當無偏估計使用)。
  • 有效性: 對同一總體引數的兩個無偏點估計量, 有更小標準差的估計量更有效。
  • 一致性: 隨著樣本容量的增大, 估計量的值越來越接近被估計的總體引數。

由於無偏性是最普遍的標準。這裡再介紹部分無偏性的幾個要點:

  • 樣本均值是總體期望的無偏估計。
  • 諸觀測值對樣本均值的偏差可正可負,其和恆為0(n個偏差中只有n-1個是獨立的)。
  • 自由度:獨立偏差個數。
  • 偏差平方和(樣本量相等情況下,偏差平方和的大小反映樣本散佈的大小, 樣本量大,偏差平方和大趨近於平均偏差平方和,偏差平方和的期望小於方差,有偏估計,漸進無偏估計。

點估計(point estimate)

  • 用樣本估計量的某個取值直接作為總體引數的估計值(例如:用樣本均值直接作為總體均值的估計;用兩個樣本均值之差直接作為總體均值之差的估計)。
  • 無法給出估計值接近總體引數程度的資訊(雖然在重複抽樣條件下,點估計的均值可望接近總體真值,但由於樣本是隨機的,抽出一個具體的樣本得到的估計值等同於總體真值的可能性很小,特別是在連續分佈時,該概率幾乎為0,一個點估計量的可靠性是由它的抽樣標準誤差來衡量的,這表明一個具體的點估計值無法給出估計的可靠性的度量)。

2.區間估計 Confidence Intervals

正如前面提到的點估計可靠性較低,因此在點估計的基礎上又提出了區間估計(interval estimate),它能解決的問題包括:

  • 為解決引數估計的精確度和可靠性問題, 在點估計的基礎上給出總體引數估計的一個區間範圍(該區間一般由樣本統計量加減抽樣誤差而得到),使這一個區間內包含引數真值的概率大到預先所要求的程度。
  • 它不具體指出總體引數等於什麼,但能指出總體的未知引數落入某一區間的概率有多大。

二者的區別在於:點估計是一個數,區間估計給出一個區間,提供更多關於變異性的資訊。通俗的解釋,你女朋友買了件衣服,讓你猜價格,你猜中準確價格很難,但是你猜一個範圍還是準確度比較高的。

這裡寫圖片描述

所以區間估計(interval estimate)的概念是——根據樣本統計量的抽樣分佈能夠對樣本統計量與總體引數的接近程度給出一個概率度量。
由概率度量則引出了置信區間(Confidence Intervals)的概念。

x1,x2,,xnf(x,θ)α0<α<1, θ1(x1,x2,,xn)θ2(x1,x2,,xn) 使P{(θ1(x1,x2,,xn)<θ<θ2(x1,x2,,xn)}1α, (θ1(x1,x2,,xn),θ2(x1,x2,,xn))θ1α(Confidenceinterval);