1. 程式人生 > >樣本方差的無偏估計與(n-1)的由來

樣本方差的無偏估計與(n-1)的由來

一、無偏估計

所謂總體引數估計量的無偏性指的是基於不同的樣本,使用該估計量可算出多個估計值,但它們的平均值等於被估引數的真值。

     在某些場合下,無偏性的要求是有實際意義的。例如,假設在某廠商與某銷售商之間存在長期的供貨關係,則在對產品出廠質量檢驗方法的選擇上,採用隨機抽樣的方法來估計次品率就很公平。這是因為從長期來看,這種估計方法是無偏的。比如這一次所估計出來的次品率實際上偏高,廠商吃虧了;但下一次的估計很可能偏低,廠商的損失就可以補回來。由於雙方的交往會長期多次發生這時採用無偏估計,總的來說可以達到互不吃虧的效果。

     不過,在某些場合中,無偏性的要求毫無實際意義。這裡又有兩種情況:一種情況是在某些場合中不可能發生多次抽樣。例如,假設在某廠商和某銷售商之間只會發生一次買賣交易,此後不可能再發生第二次商業往來。這時雙方誰也吃虧不起,這裡就沒有什麼“平均”可言。另一種情況則是估計誤差不可能相互補償,因此“平均”不得。例如,假設需要通過試驗對一個批量的某種型號導彈的系統誤差做出估計。這個時候,既使我們的估計的確做到了無偏,但如果這一批導彈的系統誤差實際上要麼偏左,要麼偏右,結果只能是大部分導彈都不能命中目標,不可能存在“偏左”與“偏右”相互抵消,從而“平均命中”的概念。

     由此可見,具有無偏性的估計量不一定就是我們“最需要”的“恰當”估計量。

無偏估計是引數的樣本估計值的期望值等於引數的真實值。估計量的數學期望等於被估計引數,則稱此為無偏估計。    

 設A'=g(X1,X2,...,Xn)是未知引數A的一個點估計量,若A'滿足     E(A')= A     則稱A'為A的無偏估計量,否則為有偏估計量。     

注:無偏估計就是系統誤差為零的估計。

由於公式A'=g(X1,X2,...,Xn)中的X1,X2,...,Xn一般為一次抽樣的結果,沒有明確是怎麼抽樣的一個過程,所以導致不好理解為什麼A'就是A的無偏估計量,特別是很難舉出例項來給與證明。

經過自己的查閱資料和理解,實際上無偏估計量可以理解如下:

簡單的理解,無偏估計量就是:在樣本中進行n次隨機的抽樣,每次抽樣都可以計算出一個對某一個引數的點估計量,計算n次,得到n個點估計量,然後對n個點估計量計算期望,得到的值和需要估計的總體引數相等,則稱n中的任何點估計量為總體引數的無偏估計量。

舉例:

比如我要對某個學校一個年級的上千個學生估計他們的平均水平(真實值,上帝才知道的數字),那麼我決定抽樣來計算。

我抽出一個10個人的樣本,可以計算出一個均值。那麼如果我下次重新抽樣,抽到的10個人可能就不一樣了,那麼這個從樣本里面計算出來的均值可能就變了,對不對?

因為這個均值是隨著我抽樣變化的,而我抽出哪10個人來計算這個數字是隨機的,那麼這個均值也是隨機的。但是這個均值也會服從一個規律(一個分佈),那就是如果我抽很多次樣本,計算出很多個這樣的均值,這麼多均值們的平均數應該接近上帝才知道的真實平均水平。

如果你能理解“樣本均值”其實也是一個 隨機變數,那麼就可以理解為這個隨機變數的 期望是真實值,所以 無偏(這是無偏的定義);而它又是一個隨機變數,只是 估計而不精確地等於,所以是無偏估計量。

二、計算

假設X為獨立同分布的一組隨機變數,總體為M,隨機抽取N個隨機變數構成一個樣本,是總體的均值和方差, 是常數。是對樣本的均值和方差,由於樣本是隨機抽取的,也是隨機的。

既然是隨機變數,就可以觀察他們的均值方差。

    這裡需要注意的是,由於樣本是隨機的,所以X1X2X3...都是隨機的。上式中可以看出,樣本均值這個變數的期望就是總體的均值,因此可以說均值是無偏的。

    接下來看樣本方差的均值:

 



    根據方差公式,可以得到:

    因此:

    

    這裡可以看出樣本方差的期望並不是無偏的,要無偏估計,應該再乘上一個係數:

所以無偏估計的樣本的方差:

    

 n-1既為自由度,就是說,在一個容量為n的樣本里,當確定了n-1個變數以後,第n個變數就確定了,因為樣本均值是無偏的。

協方差除以n-1原理和方差一樣,因為方差為協方差的特殊情況。

 

參考:

http://www.cnblogs.com/gczr/p/8250272.html

https://blog.csdn.net/yangzhenzhen/article/details/73244592