1. 程式人生 > >數理統計9:完備統計量,指數族,充分完備統計量法,CR不等式

數理統計9:完備統計量,指數族,充分完備統計量法,CR不等式

昨天我們給出了統計量是UMVUE的一個必要條件:它是充分統計量的函式,且是無偏估計,但這並非充分條件。如果說一個統計量的無偏估計函式一定是UMVUE,那麼它還應當具有完備性的條件,這就是我們今天將探討的內容。由於本系列為我獨自完成的,缺少審閱,**如果有任何錯誤,歡迎在評論區中指出,謝謝**! [Toc] ## Part 1:完備統計量 **完備統計量**跟充分統計量從名字上看是相對應的,但是完備統計量的意義不像充分統計量那麼明確——充分統計量代表能“完全包含”待估引數資訊的統計量,而完備統計量則是**使得不同的引數值對應不同的統計量分佈**。具體說來,完備統計量的定義是這樣的: 設總體分佈族的密度函式為$f(x;\theta)$,這裡$\theta\in \Theta$是待估引數,稱$\Theta$為引數空間(其實我們之前接觸過但沒有專門提過引數空間的概念)。設$T=T(\boldsymbol{X})$為一統計量,若對任何可測函式$\varphi(\cdot)$具有以下的條件: $$ \mathbb{E}[\varphi(T(\boldsymbol{X}))]=0\Rightarrow \mathbb{P}(\varphi(T(\boldsymbol{X}))=0)=1,\quad \forall\theta\in\Theta, $$ 就稱$T(\boldsymbol{X})$是完備統計量。如果放寬條件,當$\varphi(\cdot)$是有界函式時上式成立,則稱此統計量是**有界完備統計量**。顯然,有界完備統計量必是完備統計量。 > 從線性代數的角度來看,可以把函式空間視為一個無限維向量空間,那麼取期望就可以視為該向量空間上的一個對映,容易驗證此對映具有線性對映的性質: > $$ > \mathbb{E}[f(T(\boldsymbol{X}))+g(T(\boldsymbol{X}))]=\mathbb{E}[f(T(\boldsymbol{X}))]+\mathbb{E}[g(T(\boldsymbol{X}))],\\ > \mathbb{E}[\lambda f(T(\boldsymbol{X}))]=\lambda\mathbb{E}[f(T(\boldsymbol{X}))], > $$ > 完備性就要求$T(\boldsymbol{X})$的選擇,會使得期望對映成為一個單射(可以回顧單射的條件是$\mathrm{null}\mathbb{E}=\{0\}$,可參考此[連結](https://www.cnblogs.com/jy333/p/14360001.html)),也就意味著每一個期望值都對應唯一的可測函式$\varphi(\cdot)$。 > > 特別當$T(\boldsymbol{X})$有密度函式$g(x;\theta)$時,完備性條件可以寫成 > $$ > \int_{-\infty}^\infty \varphi(x)g(x;\theta)\mathrm{d}x=0\Rightarrow \varphi(x)\equiv 0. > $$ > 在將函式空間看成內積空間時,我們一般將$\int_{-\infty}^\infty\varphi(x)g(x)\mathrm{d}x$視為$\langle\varphi(x),g(x)\rangle$,即兩個函式的內積,所以$\int_{-\infty}^\infty\varphi(x)g(x;\theta)\mathrm{d}x=0$即$\varphi(x),g(x;\theta)$正交。完備統計量的密度函式是這樣一個函式系$\{g(x;\theta)\}$:如果$\varphi(x)$與函式系中的任意函式正交,則$\varphi(x)\equiv 0$。從這一點上,$\{g(x;\theta)\}$張成了整個函式空間。 由可測函式的可乘性,如果$T$是完備的,則對任何可測函式$\delta(\cdot)$,$\delta(T)$也是完備的。 下面,我們試著用定義來驗證均勻分佈$U(a,b)$的完備統計量是$(X_{(1)},X_{(n)})$。分別寫出其密度函式為 $$ f_1(x)=\frac{n(b-x)^{n-1}}{(b-a)^n}I_{a 我個人認為這裡不太嚴謹,因為這沒有考慮$(X_{(1)},X_{(n)})$的零期望函式。實際上應該寫出$(X_{(1)},X_{(n)})$的聯合密度函式: > $$ > f(x,y)=n(n-1)\frac{(y-x)^{n-2}}{(b-a)^n}I_{a $$ > 再證明對任何$\delta(x,y)$,有 > $$ > \iint_{a $$ > 由於$(y-x)^{n-2}>0$恆成立,故$\delta(x,y)\equiv 0$。但是這裡的證明我寫不清楚,如果有人可以給出明確的證明歡迎在評論區留言。 充分統計量和完備統計量具有以下**Basu定理**,它可以用於驗證兩個統計量的獨立性:設$T(\boldsymbol{X})$是引數$\theta$充分統計量,且是有界完備統計量,若另一統計量$V(\boldsymbol{X})$的分佈與$\theta$無關(稱為輔助統計量),則$\forall \theta\in\Theta$,$V(\boldsymbol{X})$與$T(\boldsymbol{X})$獨立。直覺上看,Basu定理就指明瞭這樣的結論:只與$\theta$有關的統計量,和完全與$\theta$無關的統計量相互獨立。 不過,從定義上判定某個統計量是完備統計量稍顯繁瑣,有時還會用到拉普拉斯變換、傅立葉變換等數理統計裡比較冷門的知識,因此不作要求。但是,當分佈族呈現某種特殊形式時,完備統計量是比較好尋找的,下面我們就要提出這種分佈族——**指數族**。 ## Part 2:指數族 指數族並不特指某一種分佈族,而是涵蓋了許多種看起來不太相關的分佈族,它們的**概率函式有一定的共性**。我們已經很多次提到概率函式這個概念,在驗證統計量的充分性時、提出極大似然估計時都用過,再次說明,對於連續型分佈,概率函式指樣本聯合密度函式;對於離散型分佈,概率函式就是取樣本值的概率。 現在我們給出指數族的定義。指數族是指這樣的一類分佈族,其概率函式為$f(\boldsymbol{x};\theta)$,$\theta\in\Theta$,它可以表現為下面的形式: $$ f(\boldsymbol{x},\theta)=C(\theta)\exp\left\{\sum_{j=1}^kQ_j(\theta)T_j(\boldsymbol{x}) \right\}h(\boldsymbol{x}). $$ 也就是說,如果某個分佈族的概率函式可以分解為以下三部分的乘積:純引數部分、純樣本部分、指數引數與樣本的若干乘積和,那麼這個分佈族就是指數族。進一步地,令$\theta_i\xlongequal{def}Q_i(\theta)$,則上式還能被改寫為 $$ f(\boldsymbol{x},\theta)=C^*(\boldsymbol{\theta})\exp\left\{\sum_{j=1}^k\theta_jT_j(\boldsymbol{x}) \right\}h(\boldsymbol{x}),\quad \boldsymbol{\theta}=(\theta_1,\cdots,\theta_k). $$ 也就是將指數族中,指數部分的引數**整體視為一個新的引數**,上式稱為**指數族的自然形式**,$(\theta_1,\cdots,\theta_k)$的取值範圍$\Theta^*$稱為**自然引數空間**。 可以驗證,許多常見分佈族都是指數族,連續型如正態分佈、$\Gamma$分佈、$\beta$分佈,離散型如二項分佈、泊松分佈、負二項分佈都屬於指數族。需要注意的是:**均勻分佈$U(a,b)$不是指數族**。以下簡單地給出一些指數族的驗證。 正態分佈$N(\mu,\sigma^2)$: $$ \begin{aligned} f(\boldsymbol{x};\theta)&=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n(x_j-\mu)^2 \right\} \\ &=\frac{e^{-\mu^2/2\sigma^2}}{(2\pi\sigma^2)^{n/2}}\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n x_j^2+\frac{\mu}{\sigma^2}\sum_{j=1}^n x_j \right\}. \end{aligned} $$ $\Gamma$分佈$\Gamma(\alpha,\lambda)$(包含指數分佈和$\chi^2$分佈): $$ \begin{aligned} f(\boldsymbol{x};\theta)&=\left(\frac{\lambda^\alpha}{\Gamma(\lambda)}\right)^n\left(\prod_{j=1}^n x_j \right)^{\alpha-1}\exp\left\{-\lambda\sum_{j=1}^n x_j \right\}\prod_{j=1}^n( I_{x_j>0})\\ &=\left(\frac{\lambda^n}{\Gamma(\lambda)}\right)^n\exp\left\{(\alpha-1)\left(\sum_{j=1}^n \ln x_j \right)-\lambda\sum_{j=1}^nx_j \right\}\prod_{j=1}^n( I_{x_j>0}). \end{aligned} $$ $\beta$分佈$\beta(a,b)$: $$ \begin{aligned} f(\boldsymbol{x};\theta)&=\left(\frac{1}{\beta(a,b)} \right)^n\left(\prod_{j=1}^n x_j \right)^{a-1}\left[\prod_{j=1}^n(1-x_j) \right]^{b-1}\prod_{j=1}^n( I_{0總體
分佈族的概率函式是$f(x;\theta)$,這裡$\theta$是單個引數: 1. $\Theta$是直線上的某個開區間; 2. 分佈族擁有共同的支撐集; 3. 總體分佈族的概率函式關於引數$\theta$的一階導數$\frac{\partial f(x;\theta)}{\partial\theta}$存在; 4. 概率函式$f(x,\theta)$的積分(或無窮級數)與微分運算可交換,即 $$ \frac{\partial}{\partial\theta}\int f(x;\theta)\mathrm{d}x=\int\frac{\partial}{\partial\theta}f(x;\theta)\mathrm{d}x; $$ 5. 定義$I(\theta)$為 $$ I(\theta)=\mathbb{E}\left[\frac{\partial \ln f(X,\theta)}{\partial\theta} \right]^2=-\mathbb{E}\left[\frac{\partial^2\ln f(X,\theta)}{\partial\theta^2} \right]. $$ 這個數學期望存在,且$0