1. 程式人生 > >自由度(為什麼樣本方差自由度是n-1)

自由度(為什麼樣本方差自由度是n-1)

一 概念、條件及目的

  1. 概念
    要理解樣本方差的自由度為什麼是n-1,得先理解自由度的概念:
    自由度,是指附加給獨立的觀測值的約束或限制的個數,即一組資料中可以自由取值的個數
  2. 成立條件
    所謂自由取值,是指抽樣時選取樣本,也就是說:只有當以樣本的統計量來估計總體的引數時才有自由度的概念,直接統計總體引數時是沒有自由度概念的。
  3. 目的
    自由度概念,是為了在通過樣本進行引數估計時,剔除系統誤差,實現無偏估計
    設A’=g(X1,X2,…,Xn)是未知引數A的一個點估計量,若A’滿足E(A’)= A ,則稱A’為A的無偏估計量,否則為有偏估計量。所以,無偏估計就是系統誤差為零的估計。

    如果看完以上釋義仍覺得有些晦澀難懂,可以閱讀下知乎上生動的解說:
    比如我要對某個學校一個年級的上千個學生估計他們的平均水平(真實值,上帝才知道的數字),那麼我決定抽樣來計算。我抽出一個10個人的樣本,可以計算出一個均值。那麼如果我下次重新抽樣,抽到的10個人可能就不一樣了,那麼這個從樣本里面計算出來的均值可能就變了,對不對?因為這個均值是隨著我抽樣變化的,而我抽出哪10個人來計算這個數字是隨機的,那麼這個均值也是隨機的。但是這個均值也會服從一個規律(一個分佈),那就是如果我抽很多次樣本,計算出很多個這樣的均值,這麼多均值的平均數(也就是均值的期望,期望的概念請參考:數學期望_張之海_CSDN
    應該接近上帝才知道的真實平均水平。如果你能理解“樣本均值”其實也是一個隨機變數,那麼就可以理解為這個隨機變數的期望是真實值,所以無偏(這是無偏的定義,即這麼多均值的平均數(樣本均值)是真實值的無偏估計);而它又是一個隨機變數,只是估計而不精確地等於,所以是無偏估計量。[2]

二 詳解自由度

當樣本資料的個數為n時,若樣本平均數 x拔 確定後,則附加給n個觀測值的約束個數就是1個,一次只有n-1個數據可以自由取值,其中必有一個數據不能自由取值。按照這一邏輯,如果對n個觀測值附加的約束個數為k個,自由度則為n-k。例如假設樣本有3個值,即x1=2,x2=4,x3=9,則當 x拔 =5確定後,x1、x2、x3只有兩個資料可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那麼x3必然取2,而不能取其他值。
樣本方差自由度為什麼為n-1

呢,因為在計算離差平方和 ∑(xi -x)2 時,必須先求出樣本平均數 x拔,而 x拔 則是附加給 ∑(xi -x)2 的一個約束,因此,計算離差平方和時只有n-1個獨立的觀測值,而不是n個。
在估計總體的方差時,使用的是離差平方和。只要n-1個數的離差平方和確定了,方差也就確定了;因為在均值確定後,如果知道了其中n-1個數的值,第n個數的值也就確定了。而在計算離差平方和 ∑(xi -x)2 時,必須先求出均值 x拔,均值就相當於一個限制條件,由於加了這個限制條件,估計總體方差的自由度為n-1。

三 公式推導