1. 程式人生 > >數理統計8:點估計的有效性、一致最小方差無偏估計(UMVUE)、零無偏估計法

數理統計8:點估計的有效性、一致最小方差無偏估計(UMVUE)、零無偏估計法

在之前的學習中,主要基於充分統計量給出點估計,並且注重於點估計的無偏性與相合性。然而,僅有這兩個性質是不足的,無偏性只能保證統計量的均值與待估引數一致,卻無法控制統計量可能偏離待估引數的程度;相合性只能在大樣本下保證統計量到均值的收斂性,但卻對小樣本情形束手無策。今天我們將注重於統計量的有效性,即無偏統計量的抽樣分佈的方差。由於本系列為我獨自完成的,缺少審閱,**如果有任何錯誤,歡迎在評論區中指出,謝謝**! [Toc] ## Part 1:一致最小方差無偏估計 首先考慮這樣的問題:如何刻畫一個統計量的有效程度?注意到,一個統計量的取值既可能高於待估引數,亦可能低於待估引數,要綜合考慮統計量對待估引數誤差,需要用平方均衡這種雙向偏差,因此,提出**均方誤差**的概念:若$\hat g(\boldsymbol{X})$是$g(\theta)$的估計量,則$\hat g(\boldsymbol{X})$的均方誤差定義為 $$ \mathrm{MSE}(\hat g(\boldsymbol{X}))= \mathbb{E}[\hat g(\boldsymbol{X})-g(\theta)]^2. $$ 對於確定的統計量$\hat g(\boldsymbol{X})$而言,$\mathrm{MSE}(\hat g(\boldsymbol{X}))$是$\theta$的函式。顯然,一個統計量的均方誤差越小,它就越在待估引數真值附近環繞,由此,用統計量的一次觀測值作為待估引數的估計就有著越大的把握。 如果對於$g(\theta)$的兩個估計量$\hat g_1(\boldsymbol{X})$和$\hat g_2(\boldsymbol{X})$,恆有$\mathrm{MSE}(\hat g_1(\boldsymbol{X}))\le \mathrm{MSE}(\hat g_2(\boldsymbol{X}))$,且嚴格不等號至少在某個$\theta$處成立,就稱$\hat g_1(\boldsymbol{X})$在均方誤差準則下優於$\hat g_2(\boldsymbol{X})$。如果我們能找到均方誤差最小的統計量$\hat g(\boldsymbol{X})$,就相當於找到了均方誤差準則下的最優統計量。 不過,均方誤差是$\theta$的函式,這就導致了某些統計量在$\theta=\theta_1$時均方誤差小,在$\theta=\theta_2$時均方誤差大,一致最小均方誤差估計量便不存在,需要增加約束條件,找到更可能存在的“最優”。 基於此,我們提出**一致最小方差無偏估計(UMVUE)**的概念,它將$g(\theta)$的估計量限制在了無偏估計之中,這使得UMVUE的存在可能性得以提高。並且,由於$\mathbb{E}(\hat g(\boldsymbol{X}))=g(\theta)$,所以 $$ \mathrm{MSE}(\hat g(\boldsymbol{X}))=\mathbb{E}(\hat g(\boldsymbol{X})-g(\theta))^2=\mathbb{E}[\hat g(\boldsymbol{X})-\mathbb{E}(\hat g(\boldsymbol{X}))]^2=\mathbb{D}(\hat g(\boldsymbol{X})), $$ 即無偏估計的均方誤差就是無偏估計的方差。 不過首先要提出的是,UMVUE往往比一致最小均方誤差估計量更容易存在,但依然不是所有引數都存在UMVUE的,並且,甚至可能有的引數根本不存在無偏估計。 > 以下是一個典型的不存在無偏估計的[例子](https://math.stackexchange.com/questions/681638/for-the-binomial-distribution-why-does-no-unbiased-estimator-exist-for-1-p/3127107):$X\sim B(n,p)$,引數$g(p)=1/p$的無偏估計不存在。書上給出的證明過程如下: > > 首先,無偏估計不依賴於樣本容量,故假設$n=1$。若$g(p)$有無偏估計$\hat g(X)$,則由於$X=0,1,\cdots,n$,故$\hat g(X)$的取值只可能是$a_0,a_1,\cdots,a_n$,可以寫出其期望為 > $$ > \mathbb{E}(\hat g(X))=\sum_{j=0}^n a_jC_n^jp^j(1-p)^{n-j}, > $$ > 當$\hat g(X)$為無偏估計時,成立以下等式: > $$ > \sum_{j=0}^na_jC_n^jp^j(1-p)^{n-j}=\frac{1}{p}, > $$ > 即對於某個多項式$f\in\mathcal P_{n+1}(\mathbb{R})$,有 > $$ > f(p)=0,\quad \forall p\in(0,1). > $$ > 顯然,要使上式恆成立,除非$f$為零多項式。但$f$並不是零多項式,這意味著$f(p)=0$只會在至多$n+1$個點處成立,這與無偏性要求矛盾。因此,$g(p)=1/p$不存在無偏估計。 我們將存在無偏估計的待估引數稱為**可估引數**,因此UMVUE僅對可估引數作討論。我們的任務,就是用一定的方法,找到可估引數的UMVUE。 ## Part 2:改進無偏估計量 無偏估計量有許多,比如正態分佈$N(\mu,\sigma^2)$中,$\mu$的無偏估計就有$X_1,2X_2-X_1,\bar X$等。**充分統計量的條件期望法**是改進無偏估計量的一個典型方式,它基於如下的定理:設$T=T(\boldsymbol{X})$是一個充分統計量,$\hat g(\boldsymbol{X})$是$g(\theta)$的一個普通無偏估計量,則$h(T)=\mathbb{E}[\hat g(\boldsymbol{X})|T]$是$g(\theta)$的無偏估計,且 $$ \mathbb{D}(h(T))\le \mathbb{D}(\hat g(\boldsymbol{X})),\quad \forall \theta\in\Theta. $$ 等號成立當且僅當$\hat g(\boldsymbol{X})=h(T)$是均方條件下成立的。它的證明不是很有必要掌握,權當了解。 > 因為$T$是$g(\theta)$的充分統計量,故$\mathbb{E}(\hat g(\boldsymbol{X})|T)$與待估引數$g(\theta)$無關,可以作為統計量,即 > $$ > h(T)=\mathbb{E}(\hat g(\boldsymbol{X})|T) > $$ > 是合理定義的統計量。下證其無偏性,由全期望公式,有 > $$ > \mathbb{E}(h(T))=\mathbb{E}[\mathbb{E}(\hat g(\boldsymbol{X})|T)]=\mathbb{E}(\hat g(\boldsymbol{X}))=g(\theta). > $$ > 最後證明其比$\hat g(\boldsymbol{X})$更有效,利用一個常用的拆分技巧,得到 > $$ > \begin{aligned} > \mathbb{D}(\hat g(\boldsymbol{X}))&=\mathbb{D}[\hat g(\boldsymbol{X})-h(T)+h(T)]\\ > &=\mathbb{D}(h(T))+\mathbb{D}(\hat g(\boldsymbol{X})-h(T))+2\mathrm{Cov}(h(T),\hat g(\boldsymbol{X})-h(T)), > \end{aligned} > $$ > 然後證明交叉項為0,這裡需要再次用到全期望公式,有 > $$ > \begin{aligned} > &\quad \mathrm{Cov}(h(T),\hat g(\boldsymbol{X})-h(T))\\ > &=\mathbb{E}[h(T)-g(\theta)][\hat g(\boldsymbol{X})-h(T)]\\ > &=\mathbb{E}[\mathbb{E}[(h(T)-g(\theta))(\hat g(\boldsymbol{X})-h(T))|T]]\\ > &=\mathbb{E}[(h(T)-g(\theta))(\mathbb{E}(\hat g(\boldsymbol{X})|T)-h(T)]\\ > &=0. > \end{aligned} > $$ > 最後的等號是因為$h(T)=\mathbb{E}(\hat g(\boldsymbol{X})|T)$,於是代回就得到 > $$ > \mathbb{D}(\hat g(\boldsymbol{X}))=\mathbb{D}(h(T))+\mathbb{D}(\hat g(\boldsymbol{X})-h(T))\ge \mathbb{D}(h(T)). > $$ > 等號成立當且僅當$\mathbb{D}(\hat g(\boldsymbol{X})-h(T))^2=\mathbb{E}(\hat g(\boldsymbol{X})-h(T))^2=0$。 這個定理的重要意義在於,如果給定的無偏估計量不是充分統計量的函式,則可以通過條件期望法,將其轉變成一個充分統計量的函式作為新的統計量,並且新的統計量總是更有效的。此外,這也對我們尋找UMVUE提出啟示:**UMVUE一定是充分統計量的函式**。如果不然,則可以通過對充分統計量求期望,得到一個更有效的統計量。 不過,改進後的充分統計量函式,儘管是更為有效的引數估計,但卻並不一定是UMVUE,下面的定理將給出一個驗證點估計是否為UMVUE的方法。 ## Part 3:零無偏估計法 **零無偏估計法**是用於判斷某個估計量是否為UMVUE的方法,為此,首先要提出什麼是**零無偏估計**。顧名思義,零無偏估計即零的無偏估計量,對某個統計量$l(\boldsymbol{X})$,如果有$\mathbb{E}(l(\boldsymbol{X}))=0$,則稱$l(\boldsymbol{X})$是一個零無偏估計量;如果統計量$T$是待估引數$g(\theta)$的充分統計量,且$\mathbb{E}(h(T))=0$,則$h(T)$也稱為$g(\theta)$的零無偏估計量。 零無偏估計法的思想、證明過程都與上述的充分統計量條件期望法類似。如果$\hat g(\boldsymbol{X})$是UMVUE,則對於任意其他無偏估計$\hat g_1(\boldsymbol{X})$,都可以視為$\hat g_1(\boldsymbol{X})=\hat g(\boldsymbol{X})+l(\boldsymbol{X})$,顯然這裡$\mathbb{E}(l(\boldsymbol{X}))=0$,要使$\hat g_1(\boldsymbol{X})$的方差大於$\hat g(\boldsymbol{X})$,可以進行拆分,即 $$ \mathbb{D}(\hat g_1(\boldsymbol{X}))=\mathbb{D}(\hat g(\boldsymbol{X}))+\mathbb{D}(l(\boldsymbol{X}))+2\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X})). $$ 如果最後的協方差項為0,則必有$\mathbb{D}(\hat g_1(\boldsymbol{X}))\ge \mathbb{D}(\hat g(\boldsymbol{X}))$。綜合以上討論,給出零無偏估計法驗證UMVUE的方式。 設$\hat g(\boldsymbol{X})$是$g(\theta)$的一個無偏估計,$\mathbb{D}(\hat g(\boldsymbol{X}))<\infty$,對任何$\theta\in\Theta$,若對任何零無偏估計$l(\boldsymbol{X})$都有 $$ \mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X}))=0, $$ 則$\hat g(\boldsymbol{X})$是$g(\theta)$的UMVUE。 > 如果$\hat g(\boldsymbol{X})$滿足與任何零無偏估計無關,則它是UMVUE,這是一個充分條件。但反之,它也是一個必要條件,即**UMVUE必定與任何零無偏估計量無關**。 > > 如果不然,設$\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X}))=b(\theta)\ne 0$,則可以假設$\mathbb{D}(l(\boldsymbol{X}))=a^2(\theta)>0$。現在固定$\theta=\theta_0$為常數,並設$a(\theta_0)=a,b(\theta_0)=b$,只要 > $$ > \mathbb{D}(l(\boldsymbol{X}))+2\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X}))=a^2(\theta_0)+2b(\theta_0)=a^2+2b<0, > $$ > 就能找到一個在$\theta=\theta_0$處,比$\hat g(\boldsymbol{X})$方差更小的無偏估計,那麼$\hat g(\boldsymbol{X})$就不是UMVUE。注意到,如果$l(\boldsymbol{X})$是零無偏估計,則$\forall k\ne 0$,$kl(\boldsymbol{X})$也是零無偏估計,就有 > $$ > \mathbb{D}(kl(\boldsymbol{X}))+2\mathrm{Cov}(\hat g(\boldsymbol{X}),kl(\boldsymbol{X}))=k^2a^2+2bk, > $$ > 取$k$值為 > $$ > \left\{\begin{array}l > -\frac{2b}{a}0; \\ > 0 \end{array}\right. > $$ > 就使得$k^2a^2+2bk<0$成立,於是 > $$ > \hat g_1(\boldsymbol{X})\xlongequal{def}\hat g(\boldsymbol{X})+kl(\boldsymbol{X}) > $$ > 是$g(\theta)$的無偏估計量,且當$\theta=\theta_0$時$\mathbb{D}(\hat g_1(\boldsymbol{X}))<\mathbb{D}(\hat g(\boldsymbol{X}))$,故$\hat g(\boldsymbol{X})$不是UMVUE。 有了這個方法,我們可以驗證一些常用的充分統計量是UMVUE了。現以正態分佈$N(\mu,\sigma^2)$的充分統計量$(\bar X,S^2)$為例,它們是否是UMVUE呢?如果直接驗證會稍顯繁瑣,對零無偏估計法稍加修改可以得到以下的推論: 如果$T$是充分統計量且$h(T)$是$g(\theta)$的一個無偏估計,對任何$\theta\in\Theta$與一切零無偏估計量$\delta (T)$都有 $$ \mathrm{Cov}(h(T),\delta(T))=\mathbb{E}(h(T)\delta(T))=0, $$ 則$h(T)$是UMVUE。 這裡只是將樣本的函式改成了**充分統計量的函式**,以上證明過程是依然適用的。並且,由於UMVUE一定是充分統計量的函式,因此這個推論會更有應用意義。 對於正態分佈而言,充分統計量可以視為 $$ T_1=\frac{1}{n}\sum_{j=1}^n X_j,\quad T_2=\sum_{j=1}^n (X_j-\bar X)^2,\\ T_1\sim N\left(\mu,\frac{\sigma^2}{n}\right),\quad \frac{T_2}{\sigma^2}\sim\chi^2(n-1)\Rightarrow T_2\sim\Gamma\left(\frac{n-1}{2},\frac{1}{2\sigma^2} \right). $$ 由於$T_1,T_2$獨立,所以其聯合密度函式容易寫出,有 $$ f_1(t_1)=\frac{\sqrt{n}}{\sqrt{2\pi \sigma^2}}\exp\left\{-\frac{n(t_1-\mu)^2}{2\sigma^2} \right\},\\ f_2(t_2)=\frac{1}{2^{\frac{n-1}{2}}\Gamma(\frac{n-1}{2})\sigma^{n-1}}t_2^{\frac{n-1}{2}-1}e^{-\frac{t_2}{2\sigma^2}},\\ f(t_1,t_2)=\frac{C}{\sigma^n}t_2^{\frac{n-1}{2}-1}\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\}. $$ 如果$\delta(t_1,t_2)$是零均值的,則有 $$ \mathbb{E}(\delta(t_1,t_2))=\frac{C}{\sigma^n}\int_{-\infty}^\infty \delta(t_1,t_2)\cdot t_2^{\frac{n-1}{2}-1}\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\}\mathrm{d}t_1\mathrm{d}t_2=0. $$ 令$\exp$部分為$H(\mu,\sigma^2)$,也就是我們獲得了這個**關鍵的等式**(它是證明的核心): $$ \int_{-\infty}^\infty\delta(t_1,t_2)\cdot t_2^{\frac{n-1}{2}-1}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2=0 $$ 要驗證$\mathbb{E}(t_1,\delta(t_1,t_2))$與$\mathbb{E}(t_2,\delta(t_1,t_2))$是否為0,先從第一個入手,寫出其表示式為 $$ \mathbb{E}(t_1,\delta(t_1,t_2))=\frac{C}{\sigma^n}\int_{-\infty}^{\infty}\delta(t_1,t_2)t_1t_2^{\frac{n-1}{2}-1}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2. $$ 要驗證$\mathbb{E}(t_1,\delta(t_1,t_2))=0$,實際上就是驗證 $$ \int_{-\infty}^\infty \delta(t_1,t_2)t_1t_2^{\frac{n-1}{2}-1}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2\stackrel{?}=0. $$ 不要被這個龐然大物嚇到,事實上我們唯一的條件只有$\mathbb{E}(\delta(t_1,t_2))=0$所對應的等式,注意到上面的等式無論$\mu,\sigma$的真值是多少都應該成立,所以是$\mu,\sigma$的二元函式,我們能做的事也很有限——**對引數求導**。這裡涉及到了求導與積分是否可交換的問題,我們姑且不考慮,預設視為可交換即可,由於$\sigma^2$很複雜,所以對$\mu$求導即可。唯一含有$\mu$的項是積分號中間的$\exp$部分,其導數為 $$ H(\mu,\sigma^2)=\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\},\\ \frac{\partial H(\mu,\sigma^2)}{\partial \mu}=\frac{2n(t_1-\mu)}{\sigma^2}H(\mu,\sigma^2), $$ 於是就有 $$ \frac{\partial \mathbb{E}(\delta_1,\delta_2)}{\partial\mu}=\frac{C}{\sigma^n}\int_{-\infty}^\infty\delta(t_1,t_2)t_2^{\frac{n-1}{2}-1}\frac{2n(t_1-\mu)}{\sigma^2}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2=0, $$ 將求導後得到的式子展開,提取出引數並代入上面的結果,就有 $$ \int_{-\infty}^\infty\delta(t_1,t_2)t_1t_2^{\frac{n-1}{2}-1}H(\mu,\sigma)\mathrm{d}t_1\mathrm{d}t_2=0, $$ 也就說明了$\mathbb{E}(t_1,\delta(t_1,t_2))=0$,由$\delta(t_1,t_2)$的任意性以及$T_1$的無偏性,可知$\bar X$是$\mu$的UMVUE。 下一步證明$T_2/(n-1)$是$\sigma^2$的UMVUE,也就是證明$\mathbb{E}(t_2,\delta(t_1,t_2))=0$,同樣寫出需要驗證的等式為 $$ \int_{-\infty}^\infty\delta(t_1,t_2) t_2^{\frac{n-1}{2}}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2\stackrel{?}=0. $$ 現在我們嘗試將關鍵的等式對$\sigma^2$求導,同樣,先計算$H$對$\sigma^2$的偏導,有 $$ H(\mu,\sigma^2)=\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\},\\ \frac{\partial H(\mu,\sigma^2)}{\partial \sigma^2}=\frac{n(t_1-\mu)^2+t_2}{2\sigma^4}H(\mu,\sigma^2), $$ 可以看到,這裡除了出現已經確認代入能為0的常數項和$t_1$外,還多了$t_1^2$與$t_2$的項,$t_2$就是我們的目標,所以再處理一下$t_1^2$這一項。顯然,對$\mu$求導一次能得到$t_1$的一次項,那麼對$\mu$求二階導,就能得到$t_1^2$項,所以 $$ \frac{\partial H(\mu,\sigma^2)}{\partial \mu}=\frac{2n(t_1-\mu)}{\sigma^2}H(\mu,\sigma^2),\\ \frac{\partial^2H(\mu,\sigma^2)}{\partial\mu^2}=H(\mu,\sigma^2)\left[\frac{4n^2(t_1-\mu)^2}{\sigma^4}-\frac{2n}{\sigma^2} \right]. $$ 這樣就出現了需要的$t_1^2$項,剩下的工作只有繁瑣的代入計算而已,我們實際上已經完成了證明的主要步驟,因此$S^2$也是$\sigma^2$的UMVUE。 對於一元連續或離散情形下UMVUE的驗證,難度要比二元情形下小得多,因此讀者只要掌握了正態分佈的零無偏估計法驗證,理論上其他UMVUE的驗證便不成問題。讀者可以自己嘗試其他UMVUE的驗證。 --- 今天,我們提出了UMVUE的概念,重點在於利用充分統計量改進普通的無偏估計,並且利用零無偏估計法驗證某個充分統計量函式是否是UMVUE。但是,我們並沒有給出尋找UMVUE的方法,如果依靠感覺沒有方向地尋找再一個個驗證是否為UMVUE,是十分繁瑣且難以成功的。比如對於$B(1,p)$的引數估計$g(p)=p(1-p)$,如果用先猜想後驗證的方法來尋找UMVUE,甚至沒有入手點。 因此,明天我們將學習尋找UMVUE的方法,並介紹一個被我們忽略已久的概念——指