1. 程式人生 > >極大似然估計,最大後驗概率估計(MAP),貝葉斯估計

極大似然估計,最大後驗概率估計(MAP),貝葉斯估計

1、貝葉斯公式

三種引數估計方法都和貝葉斯公式有關,因此首先從分析貝葉斯公式入手:

貝葉斯公式可以表達為:

 

posterior:通過樣本X得到引數的概率

likehood:通過引數得到樣本X的概率

prior:引數的先驗概率,一般是根據人的先驗知識來得出的。比如人們傾向於認為拋硬幣實驗會符合先驗分佈:beta分佈。當我們選擇beta分佈的引數時,代表人們認為拋硬幣得到正反面的概率都是0.5

evidence:,樣本X發生的概率,是各種條件下發生的概率的積分

2、極大似然估計

目標是尋求能最大化likehood:值。可以寫出目標函式:

一般使用對數來進行簡化處理:

要最大化L,對L求導數並令導數為0即可求解。

3、最大後驗估計(MAP)

和極大似然估計不同的是,MAP尋求的是能使後驗概率最大的值。


之所以可以省略分母p(X),是因為p(X)和沒有關係。

加上對數處理後,上面公式可以表達為:

的先驗分佈,我們可以按照實際情況來選擇,比如拋硬幣實驗,我們就可以選擇上面

說過的beta分佈。

至於上面目標函式的求解,也和極大似然估計是一樣的,對目標函式求導並令導數為0來求解。

MAP和極大似然的區別:

MAP允許我們把先驗知識加入到估計模型中,這在樣本很少的時候是很有用的,因為樣本很少的時候我們的觀測結果很可能出現偏差,此時先驗知識會把估計的結果“拉”向先驗,實際的預估結果將會在先驗結果的兩側形成一個頂峰。通過調節先驗分佈的引數,比如beta分佈的

,我們還可以調節把估計的結果“拉”向先驗的幅度,越大,這個頂峰越尖銳。這樣的引數,我們叫做預估模型的“超引數”。

4、貝葉斯估計

貝葉斯估計和MAP挺像的,都是以最大化後驗概率為目的。區別在於:

1)極大似然估計和MAP都是隻返回了的預估值,就完事了

2)MAP在計算後驗概率的時候,把分母p(X)給忽略了,在進行貝葉斯估計的時候則不能忽略

3)貝葉斯估計要計算整個後驗概率的概率分佈

還是回到這兩個公式:

這裡有一個技巧,對於一個特定的likehood,如果我們選擇了一個先驗概率分佈,

通過上面兩個公式的計算,得出的後驗概率和先驗概率是同分布的,這時候我們說這個先驗分佈是共軛先驗。

可以舉幾個例子:

likehood為高斯分佈,prior為高斯分佈,則posterior也為高斯分佈

likehood為伯努利分佈(二項式分佈),prior為beta分佈,則posterior也為beta分佈

likehood為多項式分佈,prior為Dirichlet分佈(beta分佈的一個擴充套件),則posterior也為Dirichlet分佈

根據上面的描述,在實踐中我們往往會選擇共軛先驗來簡化。在把後驗概率推導為和先驗概率一樣的分佈形式的時候,分母p(X)其實可以看做一個常數,往往充當了一個normalize,歸一化的作用。

求解的時候,既然我們根據先驗分佈知道了後驗是什麼分佈,那我們求出後驗分佈的期望值,即是需要估計的引數的值:

知道了後驗是什麼分佈,那麼求這個分佈的期望值應該不是什麼難事。

貝葉斯估計相對於最大後驗估計的好處還在於,貝葉斯估計計算了整個後驗概率的分佈,從而也能求出其他一些比如分佈的方差之類的值來供參考,比如計算出來方差太大的,我們可以認為分佈不夠好,從而把這個當做選擇超引數的一個考慮因素。實際上,貝葉斯估計會比MAP把估計的結果往先驗結果“拉”的程度還提高了一些,從而使估計結果更靠近先驗結果。

5、和經驗風險最小化和結構風險最小化的聯絡

來自《統計學習方法》

這裡先解釋一下經驗風險最小化和結構風險最小化

經驗風險最小化:

結構風險最小化:

結構風險最小化等價於正則化,結構風險在經驗風險上加上表示模型複雜度的正則化項。

正則化的好處將在下一篇文章中總結。

以下是來自《統計學習方法》的一些結論:

1、當模型是條件概率分佈,損失函式是對數損失函式時,經驗風險最小化等價於極大似然估計(對數損失函式的形式:

2、當模型是條件概率分佈,損失函式是對數損失函式時,模型複雜度由模型的先驗概率表示時,結構風險最小化等價於最大後驗概率估計(MAP)

對於這兩個結論,我個人是有一點疑問:

上文中極大似然的概率表示是,但對數損失函式的概率表示為,這兩個概率表示是等價的嗎?

Reference:

ML, MAP, and Bayesian — The HolyTrinity of Parameter Estimation and DataPrediction