1. 程式人生 > >貝葉斯估計和極大似然估計到底有何區別

貝葉斯估計和極大似然估計到底有何區別

在開始接觸最大似然估計和貝葉斯估計時,大家都會有個疑問:最大似然估計和貝葉斯估計二者很相似,到底有何區別?本文便來說說二者的不同之處以及求參模型的公式推導!

預熱知識必知

如何求類條件概率密度:
我們知道貝葉斯決策中關鍵便在於知道後驗概率,那麼問題便集中在求解類條件概率密度!那麼如何求呢?答案便是:將類條件概率密度進行引數化。

最大似然估計和貝葉斯估計引數估計:
鑑於類條件概率密度難求,我們將其進行引數化,這樣我們便只需要對引數進行求解就行了,問題難度將大大降低!比如:我們假設類條件概率密度p(x|w)是一個多元正態分佈,那麼我們就可以把問題從估計完全未知的概率密度p(x|w)轉化成估計引數:均值u、協方差ε

所以最大似然估計和貝葉斯估計都屬於引數化估計!……當然像KNN估計、Parzen窗這些就是非引數話估計啦!但是引數化估計也自然有它的缺點,下面會說的!

簡述二者最大的區別

若用兩個字高度概括二者的最大區別那就是:引數

最大似然估計和貝葉斯估計最大區別便在於估計的引數不同,最大似然估計要估計的引數θ被當作是固定形式的一個未知變數,然後我們結合真實資料通過最大化似然函式來求解這個固定形式的未知變數!

貝葉斯估計則是將引數視為是有某種已知先驗分佈的隨機變數,意思便是這個引數他不是一個固定的未知數,而是符合一定先驗分佈如:隨機變數θ符合正態分佈等!那麼在貝葉斯估計中除了類條件概率密度p(x|w)符合一定的先驗分佈,引數θ也符合一定的先驗分佈。我們通過貝葉斯規則將引數的先驗分佈轉化成後驗分佈進行求解!

同時在貝葉斯模型使用過程中,貝葉斯估計用的是後驗概率,而最大似然估計直接使用的是類條件概率密度。

下面會詳細分析最大似然估計和貝葉斯估計求解模型!

從其他方面談談二者的異同

在先驗概率能保證問題有解的情況下,最大似然估計和貝葉斯估計在訓練樣本趨近於無窮時得到的結果是一樣的!但是實際的模式識別問題中,訓練樣本總是有限的,我們應如何選擇使用哪種模型呢?下面簡單分析分析:

(1) 計算複雜度:就實現的複雜度來說,肯定是有限選擇最大似然估計,最大似然估計中只需要使用到簡單的微分運算即可,而在貝葉斯估計中則需要用到非常複雜的多重積分,不僅如此,貝葉斯估計相對來說也更難理解;

(2)準確性:當採用的樣本資料很有限時,貝葉斯估計誤差更小,畢竟在理論上,貝葉斯估計有很強的理論和演算法基礎。

引數化估計的缺點:
貝葉斯估計和最大似然估計都是屬於引數化估計,那麼二者存在著一個共同的缺點:引數化估計雖然使得類條件概率密度變得相對簡單,但估計結果的準確性嚴重依賴於所假設的概率分佈形式是否符合潛在的真實資料分佈。在現實應用中,與做出能較好的接近潛在真實分佈中的假設,往往需要一定程度上利用關於應用任務本身的經驗知識,否則若僅憑“猜測”來假設概率分佈形式,很可能產生誤導性的結果!所以沒有什麼演算法是十全十美的啦!

下面便推導一下最大似然估計和貝葉斯估計所使用的模型,最大似然簡單些,貝葉斯估計就比較複雜了!

最大似然估計模型推導

假設樣本集D={x1 、x2 、…、xn},假設樣本之間都是相對獨立的,注意這個假設很重要!於是便有:

這裡寫圖片描述

所以假設似然函式為:
這裡寫圖片描述

接下來我們求參的準則便是如名字一樣最大化似然函式嘍:
這裡寫圖片描述

下面有一個優化,專業名詞為拉布拉斯修正

簡單說:就是防止先驗概率為0,那麼上面的L(θ|D)整個式子便都成0 了,那肯定是不行的啊,不能因為一個數據誤差影響了整個資料的使用。同時那麼多先驗概率相乘,可能出現下溢位。所以引入拉普拉斯修正,也就是取對數ln,想必大家在數學中都用過這種方法的。

所以做出下面變換:

這裡寫圖片描述

所以最大化的目標便是:

這裡寫圖片描述

求解上面問題便不多說了,使用數學中的微分知識便可:

這裡寫圖片描述

然後使得偏導數為0:

自此便求出了引數θ,然後便得到了類條件概率密度,便可進行判別等接下來的工作了。

下面講解貝葉斯模型推導,略微複雜些,下夥伴們仔細看啊!

貝葉斯估計模型推導

先說一句,貝葉斯估計最終也是為了得出後驗概率。所以貝葉斯最終所要的得到推導的是:

(1)

正如上面所說我們便是要引數的先驗分佈通過貝葉斯規則轉化成後驗概率,也就是上面這個公式,接下來我們一起看看如何推匯出上面後驗概率的公式通過引數的先驗概率。

上式中有:

這裡寫圖片描述

帶入後驗概率的式子可得:
這裡寫圖片描述

大家注意啦!!!這裡也有個重要的假設,那就是樣本之間是相互獨立的,同時類也是相互獨立的。所以有如下假設:

這裡寫圖片描述

同時由於類之間相互獨立,所以我們不用區分類了,便有:
這裡寫圖片描述

這裡給大家順一下思路,所以我們要求後驗概率便是要求出P(x|D)便可:
下面說明P(x|D)的推導:

這裡寫圖片描述

正如我們前面所說上式中p(x| θ),我們假設它是一個已知的滿足一定先驗分佈的,我們現在便是要知道:

這裡寫圖片描述

下面給出其推導過程:

這裡寫圖片描述

對於上式中的P(D|θ),還記得上面說的很重要的樣本之間是獨立的嗎,所以和最大似然函式類似有:

這裡寫圖片描述

因此最終我們便可以求得P(x|D):
這裡寫圖片描述

這樣我們將P(x|D)待會後驗概率的式子便可求出後驗概率了,所以我們完成了上面的說法,便是將引數θ 服從的先驗概率分佈轉化成了後驗概率分佈了。

本文參考資料:
【1】Pattern Classification Second Edition
【2】Machine Learining in Action
【3】機器學習 著周志華