1. 程式人生 > >樣本方差與總體方差

樣本方差與總體方差

一、方差(variance):衡量隨機變數或一組資料時離散程度的度量。                                

概率論中方差用來度量隨機變數和其數學期望(即均值)之間的偏離程度。

 統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。                                        

概率論中的方差表示方法 :                        

樣本方差,無偏估計、無偏方差(unbiased variance)。對於一組隨機變數,從中隨機抽取N個 樣本,這組樣本的方差就 是Xi^2平方和除以N-1。

總體方差,也叫做有偏估計,其實就是我們從初高中就學到的那個標準定義的方差,除數是N。

統計中的方差表示方法 :               

二、為什麼樣本方差的分母是n-1?為什麼它又叫做無偏估計?

簡單的回答,是因為因為均值你已經用了n個數的平均來做估計在求方差時,只有(n-1)個數和均值資訊是不相關的。

而你的第n個數已經可以由前(n-1)個數和均值來唯一確定,實際上沒有資訊量。所以在計算方差時,只除以(n-1)。

那麼更嚴格的證明呢?

樣本方差計算公式裡分母為n-1的目的是為了讓方差的估計是無偏的。

無偏的估計(unbiased estimator)比有偏估計(biased estimator)更好是符合直覺的,儘管有的統計學家認為讓mean square error即MSE最小才更有意義,這個問題我們不在這裡探討;

不符合直覺的是,為什麼分母必須得是n-1而不是n才能使得該估計無偏。

首先,我們假定隨機變數的數學期望是已知的,然而方差未知。在這個條件下,根據方差的定義我們有

\mathbb{E}\Big[\big(X_i -\mu\big)^2 \Big]=\sigma^2, \quad\forall i=1,\ldots,n,

由此可得

\mathbb{E}\Big[\frac{1}{n} \sum_{i=1}^n\Big(X_i -\mu\Big)^2 \Big]=\sigma^2

\frac{1}{n} \sum_{i=1}^n\Big(X_i -\mu\Big)^2是方差\sigma^2的一個無偏估計,注意式中的分母不偏不倚正好是n

這個結果符合直覺,並且在數學上也是顯而易見的。

現在,我們考慮隨機變數X的數學期望\mu是未知的情形。這時,我們會傾向於無腦直接用樣本均值\bar{X}替換掉上面式子中的\mu。這樣做有什麼後果呢?後果就是,

如果直接使用\frac{1}{n} \sum_{i=1}^n\Big(X_i -\bar{X}\Big)^2作為估計,那麼你會傾向於低估方差!

這是因為:
\begin{eqnarray}\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2 &=&\frac{1}{n}\sum_{i=1}^n\Big[(X_i-\mu) + (\mu -\bar{X}) \Big]^2\\&=&\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2 +\frac{2}{n}\sum_{i=1}^n(X_i-\mu)(\mu -\bar{X})+\frac{1}{n}\sum_{i=1}^n(\mu -\bar{X})^2 \\&=&\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2 +2(\bar{X}-\mu)(\mu -\bar{X})+(\mu -\bar{X})^2 \\&=&\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2 -(\mu -\bar{X})^2 \end{eqnarray}
換言之,除非正好\bar{X}=\mu,否則我們一定有
\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2 <\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2,
而不等式右邊的那位才是的對方差的“正確”估計!
這個不等式說明了,為什麼直接使用\frac{1}{n} \sum_{i=1}^n\Big(X_i -\bar{X}\Big)^2會導致對方差的低估。

那麼,在不知道隨機變數真實數學期望的前提下,如何“正確”的估計方差呢?答案是把上式中的分母n換成n-1,通過這種方法把原來的偏小的估計“放大”一點點,我們就能獲得對方差的正確估計了:
\mathbb{E}\Big[\frac{1}{n-1} \sum_{i=1}^n\Big(X_i -\bar{X}\Big)^2\Big]=\mathbb{E}\Big[\frac{1}{n} \sum_{i=1}^n\Big(X_i -\mu\Big)^2 \Big]=\sigma^2.

三、理論推導

 

為了方便敘述,在這裡說明好數學符號:

前面說過樣本方差之所以要除以(n-1)是因為這樣的方差估計量才是關於總體方差的無偏估計量。在公式上來講的話就是樣本方差的估計量的期望要等於總體方差。如下:

但是沒有修正的方差公式,它的期望是不等於總體方差的

                            

也就是說,樣本方差估計量如果是用沒有修正的方差公式來估計總計方差的話是有偏差的

下面給出比較好理解的公式推導過程:

也就是說,除非否則一定會有

需要注意的是不等式右邊的才是的對方差的“正確”估計,但是我們是不知道真正的總體均值是多少的,只能通過樣本的均值來代替總體的均值。

所以樣本方差估計量如果是用沒有修正的方差公式來估計總計方差的話是會有偏差,是會低估了總體的樣本方差的。為了能無偏差的估計總體方差,所以要對方差計算公式進行修正,修正公式如下:

這種修正後的估計量將是總體方差的無偏估計量,下面將會給出這種修正的一個來源;

為了能搞懂這種修正是怎麼來的,首先我們得有下面幾個等式:

1.方差計算公式:  

             

2. 均值的均值、方差計算公式:

             

對於沒有修正的方差計算公式我們有: 

因為:

                  

所以有:

                  

在這裡如果想修正的方差公式,讓修正後的方差公式求出的方差的期望為總體方差的話就需要在沒有修正的方差公式前面加上來進行修正,即:

                  
所以就會有這樣的修正公式:

    

而我們看到的都是修正後的最終結果:

                       

這就解釋了為什麼要對方差計算公式進行修正,且為什麼要這樣修正。

上面的解釋如果有什麼錯誤,或者有哪些解釋不正確的地方歡迎大家指正。謝謝大家。希望能對大家有點幫助。

 

參考:

https://blog.csdn.net/zxyhhjs2017/article/details/79149111

https://blog.csdn.net/qq_39521554/article/details/79633207

https://blog.csdn.net/cqfdcw/article/details/78173839