1. 程式人生 > >9:極大似然估計

9:極大似然估計

極大似然估計,也叫最大似然估計,是引數估計的一種方法,一般用來推測資料分佈函式相關引數。

極大似然估計步驟:

1.先假設資料屬於某一分佈(正太分佈、泊松分佈等),得到概率分佈函式

2.對概率分佈函式求導,另導數等於0(若有多處為0,選另樣本點概率最大的引數),根據樣本點資料,求引數值

為什麼叫似然:對於無法窮舉的問題,可根據樣本資料估計實際分佈,不是真實但近似真實

以下參考wiki的解釋:

統計學中,最大似然估計(英語:maximum likelihood estimation,縮寫為MLE),也稱最大概似估計,是用來估計一個概率模型的引數的一種方法。

目錄

預備知識[編輯
]

下邊的討論要求讀者熟悉概率論中的基本定義,如概率分佈概率密度函式隨機變數數學期望等。同時,還要求讀者熟悉連續實函式的基本技巧,比如使用微分來求一個函式的極值(即極大值極小值)。

最大似然估計的原理[編輯]

給定一個概率分佈{\displaystyle D}D,已知其概率密度函式(連續分佈)或概率質量函式(離散分佈)為{\displaystyle f_{D}}f_D,以及一個分佈引數{\displaystyle \theta }\theta,我們可以從這個分佈中抽出一個具有{\displaystyle n}n個值的取樣{\displaystyle X_{1},X_{2},\ldots ,X_{n}}X_1, X_2,\ldots, X_n

,利用{\displaystyle f_{D}}f_D計算出其似然函式

{\displaystyle {\mbox{lik}}(\theta \mid x_{1},\dots ,x_{n})=f_{\theta }(x_{1},\dots ,x_{n}).}{\displaystyle {\mbox{lik}}(\theta \mid x_{1},\dots ,x_{n})=f_{\theta }(x_{1},\dots ,x_{n}).}

若{\displaystyle D}D是離散分佈,{\displaystyle f_{\theta }}{\displaystyle f_{\theta }}即是在引數為{\displaystyle \theta }\theta時觀測到這一取樣的概率。若其是連續分佈,{\displaystyle f_{\theta }}{\displaystyle f_{\theta }}則為{\displaystyle X_{1},X_{2},\ldots ,X_{n}}X_1, X_2,\ldots, X_n

聯合分佈的概率密度函式在觀測值處的取值。一旦我們獲得{\displaystyle X_{1},X_{2},\ldots ,X_{n}}X_1, X_2,\ldots, X_n,我們就能求得一個關於{\displaystyle \theta }\theta的估計。最大似然估計會尋找關於{\displaystyle \theta }\theta的最可能的值(即,在所有可能的{\displaystyle \theta }\theta取值中,尋找一個值使這個取樣的“可能性”最大化)。從數學上來說,我們可以在{\displaystyle \theta }\theta的所有可能取值中尋找一個值使得似然函式取到最大值。這個使可能性最大的{\displaystyle {\widehat {\theta }}}\widehat{\theta}值即稱為{\displaystyle \theta }\theta最大似然估計。由定義,最大似然估計是樣本的函式。

注意[編輯]

  • 這裡的似然函式是指{\displaystyle x_{1},x_{2},\ldots ,x_{n}}x_1,x_2,\ldots,x_n不變時,關於{\displaystyle \theta }\theta的一個函式。
  • 最大似然估計不一定存在,也不一定唯一。

例子[編輯]

離散分佈,離散有限引數空間[編輯]

考慮一個拋硬幣的例子。假設這個硬幣正面跟反面輕重不同。我們把這個硬幣拋80次(即,我們獲取一個取樣{\displaystyle x_{1}={\mbox{H}},x_{2}={\mbox{T}},\ldots ,x_{80}={\mbox{T}}}x_1=\mbox{H}, x_2=\mbox{T}, \ldots, x_{80}=\mbox{T}並把正面的次數記下來,正面記為H,反面記為T)。並把丟擲一個正面的概率記為{\displaystyle p}p,丟擲一個反面的概率記為{\displaystyle 1-p}1-p(因此,這裡的{\displaystyle p}p即相當於上邊的{\displaystyle \theta }\theta)。假設我們丟擲了49個正面,31個反面,即49次H,31次T。假設這個硬幣是我們從一個裝了三個硬幣的盒子裡頭取出的。這三個硬幣丟擲正面的概率分別為{\displaystyle p=1/3}p=1/3, {\displaystyle p=1/2}p=1/2, {\displaystyle p=2/3}p=2/3.這些硬幣沒有標記,所以我們無法知道哪個是哪個。使用最大似然估計,基於二項分佈中的概率質量函式公式,通過這些試驗資料(即取樣資料),我們可以計算出哪個硬幣的可能性最大。這個似然函式取以下三個值中的一個:

{\displaystyle {\begin{matrix}\mathbb {P} ({\mbox{H=49, T=31 }}\mid p=1/3)&=&{\binom {80}{49}}(1/3)^{49}(1-1/3)^{31}\approx 0.000\\&&\\\mathbb {P} ({\mbox{H=49, T=31 }}\mid p=1/2)&=&{\binom {80}{49}}(1/2)^{49}(1-1/2)^{31}\approx 0.012\\&&\\\mathbb {P} ({\mbox{H=49, T=31 }}\mid p=2/3)&=&{\binom {80}{49}}(2/3)^{49}(1-2/3)^{31}\approx 0.054\\\end{matrix}}}\begin{matrix} \mathbb{P}(\mbox{H=49, T=31 }\mid p=1/3) & = & \binom{80}{49}(1/3)^{49}(1-1/3)^{31} \approx 0.000 \\ &&\\ \mathbb{P}(\mbox{H=49, T=31 }\mid p=1/2) & = & \binom{80}{49}(1/2)^{49}(1-1/2)^{31} \approx 0.012 \\ &&\\ \mathbb{P}(\mbox{H=49, T=31 }\mid p=2/3) & = & \binom{80}{49}(2/3)^{49}(1-2/3)^{31} \approx 0.054 \\ \end{matrix}

我們可以看到當{\displaystyle {\widehat {p}}=2/3}\widehat{p}=2/3時,似然函式取得最大值。這就是{\displaystyle p}p的最大似然估計。

離散分佈,連續引數空間[編輯]

現在假設例子1中的盒子中有無數個硬幣,對於{\displaystyle 0\leq p\leq 1}0\leq p\leq 1中的任何一個{\displaystyle p}p, 都有一個丟擲正面概率為{\displaystyle p}p的硬幣對應,我們來求其似然函式的最大值:

{\displaystyle {\begin{matrix}{\mbox{lik}}(\theta )&=&f_{D}({\mbox{H=49,T=80-49}}\mid p)={\binom {80}{49}}p^{49}(1-p)^{31}\\\end{matrix}}}\begin{matrix} \mbox{lik}(\theta) & = & f_D(\mbox{H=49,T=80-49}\mid p) = \binom{80}{49} p^{49}(1-p)^{31} \\ \end{matrix}

其中{\displaystyle 0\leq p\leq 1}0\leq p\leq 1. 我們可以使用微分法來求最值。方程兩邊同時對{\displaystyle p}p微分,並使其為零。

{\displaystyle {\begin{matrix}0&=&{\frac {d}{dp}}\left({\binom {80}{49}}p^{49}(1-p)^{31}\right)\\&&\\&\propto &49p^{48}(1-p)^{31}-31p^{49}(1-p)^{30}\\&&\\&=&p^{48}(1-p)^{30}\left[49(1-p)-31p\right]\\\end{matrix}}}\begin{matrix} 0 & = & \frac{d}{dp} \left( \binom{80}{49} p^{49}(1-p)^{31} \right) \\   &   & \\   & \propto & 49p^{48}(1-p)^{31} - 31p^{49}(1-p)^{30} \\   &   & \\   & = & p^{48}(1-p)^{30}\left[ 49(1-p) - 31p \right] \\ \end{matrix}

在不同比例引數值下一個二項式過程的可能性曲線t = 3, n = 10;其最大似然估計值發生在其眾數並在曲線的最大值處。

其解為{\displaystyle p=0}p=0, {\displaystyle p=1}p=1,以及{\displaystyle p=49/80}p=49/80.使可能性最大的解顯然是{\displaystyle p=49/80}p=49/80(因為{\displaystyle p=0}p=0和{\displaystyle p=1}p=1這兩個解會使可能性為零)。因此我們說最大似然估計值為{\displaystyle {\widehat {p}}=49/80}\widehat{p}=49/80.

這個結果很容易一般化。只需要用一個字母{\displaystyle t}t代替49用以表達伯努利試驗中的被觀察資料(即樣本)的“成功”次數,用另一個字母{\displaystyle n}n代表伯努利試驗的次數即可。使用完全同樣的方法即可以得到最大似然估計值:

{\displaystyle {\widehat {p}}={\frac {t}{n}}}\widehat{p}=\frac{t}{n}

對於任何成功次數為{\displaystyle t}t,試驗總數為{\displaystyle n}n的伯努利試驗。

連續分佈,連續引數空間[編輯]

最常見的連續概率分佈正態分佈,其概率密度函式如下:

{\displaystyle f(x\mid \mu ,\sigma ^{2})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}}f(x\mid \mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}

現在有{\displaystyle n}n個正態隨機變數的取樣點,要求的是一個這樣的正態分佈,這些取樣點分佈到這個正態分佈可能性最大(也就是概率密度積最大,每個點更靠近中心點),其{\displaystyle n}n個正態隨機變數的取樣的對應密度函式(假設其獨立並服從同一分佈)為:

{\displaystyle f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{\frac {n}{2}}e^{-{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2\sigma ^{2}}}}}f(x_1,\ldots,x_n \mid \mu,\sigma^2) = \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\mu)^2}{2\sigma^2}}

或:

{\displaystyle f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)}f(x_1,\ldots,x_n \mid \mu,\sigma^2) = \left( \frac{1}{2\pi\sigma^2} \right)^{n/2} \exp\left(-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}\right),

這個分佈有兩個引數:{\displaystyle \mu ,\sigma ^{2}}\mu,\sigma^2.有人可能會擔心兩個引數與上邊的討論的例子不同,上邊的例子都只是在一個引數上對可能性進行最大化。實際上,在兩個引數上的求最大值的方法也差不多:只需要分別把可能性{\displaystyle {\mbox{lik}}(\mu ,\sigma )=f(x_{1},,\ldots ,x_{n}\mid \mu ,\sigma ^{2})}\mbox{lik}(\mu,\sigma) = f(x_1,,\ldots,x_n \mid \mu, \sigma^2)在兩個引數上最大化即可。當然這比一個引數麻煩一些,但是一點也不復雜。使用上邊例子同樣的符號,我們有{\displaystyle \theta =(\mu ,\sigma ^{2})}\theta=(\mu,\sigma^2).

最大化一個似然函式同最大化它的自然對數是等價的。因為自然對數log是一個連續且在似然函式的值域嚴格遞增的上凸函式。[注意:可能性函式(似然函式)的自然對數跟資訊熵以及Fisher資訊聯絡緊密。]求對數通常能夠一定程度上簡化運算,比如在這個例子中可以看到:

{\displaystyle {\begin{matrix}0&=&{\frac {\partial }{\partial \mu }}\log \left(\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{\frac {n}{2}}e^{-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}}\right)\\&=&{\frac {\partial }{\partial \mu }}\left(\log \left({\frac {1}{2\pi \sigma ^{2}}}\right)^{\frac {n}{2}}-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=&0-{\frac {-2n({\bar {x}}-\mu )}{2\sigma ^{2}}}\\\end{matrix}}}\begin{matrix} 0 & = & \frac{\partial}{\partial \mu} \log \left( \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}} \right) \\   & = & \frac{\partial}{\partial \mu} \left( \log\left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} - \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right) \\   & = & 0 - \frac{-2n(\bar{x}-\mu)}{2\sigma^2} \\ \end{matrix}

這個方程的解是{\displaystyle {\widehat {\mu }}={\bar {x}}=\sum _{i=1}^{n}x_{i}/n}\widehat{\mu} = \bar{x} = \sum^{n}_{i=1}x_i/n.這的確是這個函式的最大值,因為它是{\displaystyle \mu }\mu裡頭惟一的一階導數等於零的點並且二階導數嚴格小於零。

同理,我們對{\displaystyle \sigma }\sigma求導,並使其為零。

{\displaystyle {\begin{matrix}0&=&{\frac {\partial }{\partial \sigma }}\log \left(\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{\frac {n}{2}}e^{-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}}\right)\\&=&{\frac {\partial }{\partial \sigma }}\left({\frac {n}{2}}\log \left({\frac {1}{2\pi \sigma ^{2}}}\right)-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=&-{\frac {n}{\sigma }}+{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{\sigma ^{3}}}\\\end{matrix}}}\begin{matrix} 0 & = & \frac{\partial}{\partial \sigma} \log \left( \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}} \right) \\   & = & \frac{\partial}{\partial \sigma} \left( \frac{n}{2}\log\left( \frac{1}{2\pi\sigma^2} \right) - \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right) \\   & = & -\frac{n}{\sigma} + \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{\sigma^3} \\ \end{matrix}

這個方程的解是{\displaystyle {\widehat {\sigma }}^{2}=\sum _{i=1}^{n}(x_{i}-{\widehat {\mu }})^{2}/n}\widehat{\sigma}^2 = \sum_{i=1}^n(x_i-\widehat{\mu})^2/n.

因此,其關於{\displaystyle \theta =(\mu ,\sigma ^{2})}\theta=(\mu,\sigma^2)最大似然估計為:

{\displaystyle {\widehat {\theta }}=({\widehat {\mu }},{\widehat {\sigma }}^{2})=({\bar {x}},\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}/n)}\widehat{\theta}=(\widehat{\mu},\widehat{\sigma}^2) = (\bar{x},\sum_{i=1}^n(x_i-\bar{x})^2/n).

性質[編輯]

泛函不變性(Functional invariance)[編輯]

如果{\displaystyle {\widehat {\theta }}}\widehat{\theta}是{\displaystyle \theta }\theta的一個最大似然估計,那麼{\displaystyle \alpha =g(\theta )}\alpha = g(\theta)的最大似然估計是{\displaystyle {\widehat {\alpha }}=g({\widehat {\theta }})}\widehat{\alpha} = g(\widehat{\theta}).函式g無需是一個一一對映。請參見George Casella與Roger L. Berger所著的Statistical Inference定理Theorem 7.2.10的證明。(中國大陸出版的大部分教材上也可以找到這個證明。)

漸近線行為[編輯]

最大似然估計函式在取樣樣本總數趨於無窮的時候達到最小方差(其證明可見於Cramer-Rao lower bound)。當最大似然估計非偏時,等價的,在極限的情況下我們可以稱其有最小的均方差。 對於獨立的觀察來說,最大似然估計函式經常趨於正態分佈

偏差[編輯]

最大似然估計的偏差是非常重要的。考慮這樣一個例子,標有1nn張票放在一個盒子中。從盒子中隨機抽取票。如果n是未知的話,那麼n的最大似然估計值就是抽出的票上標有的n,儘管其期望值的只有{\displaystyle (n+1)/2}(n+1)/2.為了估計出最高的n值,我們能確定的只能是n值不小於抽出來的票上的值。