1. 程式人生 > >最大似然估計和最大後驗概率估計的區別

最大似然估計和最大後驗概率估計的區別

最大似然估計(MLE)
1.似然函式:L(θ|x)=P(X=x|θ)
①物理意義:某次實驗,θ取不同值時,出現X=x的結果的概率;
②似然函式是引數(θ)的函式;
③似然函式是條件轉移概率。

例1:設一枚硬幣正面朝上的概率為p,求兩次拋擲都正面朝上的似然函式。
L(p|HH)=P(HH|p)=p*2
可以看到,L是引數p的似然函式。當p=0.5時,L=0.25,這與實際概率相吻合。當p=1 時,L=1,這表示當這枚硬幣只有正面時,出現“兩次朝上”這一結果的概率為100%。

2.最大似然估計
原理:對某(一批)實驗結果(或者說樣本值)求關於引數的似然函式,並求引數取何值時,似然函式的值最大,該引數即為估計結果,該方法即為最大似然估計法。

例1中,最大似然估計的結果為p=1

最大後驗概率估計(MAP)
1.後驗概率:P(θ|X=x)=P(X=x|θ)P(θ) / P(X=x)
物理意義:某次實驗,樣本為X=x時,θ在不同取值下的概率;
2.最大後驗概率
由於分母P(X=x)=Σi P(X=x|θi)=常數,因而後驗概率P(θ|X=x)取得最大值時,分子也取得最大值,問題就變為求:使得P(X=x|θ)P(θ)取最大值的引數θ。
可以看到,MAP要求取最大值的函式,形式上就是在MLE的似然函式基礎上乘以引數的先驗概率,這表示MAP除了考慮引數與樣本值的聯絡外,還考慮了引數本身的先驗概率。
再看例1,如果用MLE對引數p進行估計,僅根據樣本推斷實際,得出結果“硬幣只有正面”的結論;但用MAP方法時,我們首先認為“硬幣只有正面”這件事情的概率是很低的,因而其後驗概率也低,而P(p=0.5)的概率是最高的,因而乘上條件轉移概率後,其後驗概率也會比較大。

MLE和MAP的比較
異:
1.MLE僅根據已有樣本估計引數,MAP則根據已有樣本和引數的先驗概率共同估計引數;
2.樣本較少時,MAP更準確;樣本比較多時,MLE更省事。
同:
1.MLE和MAP都是點估計;
2.當先驗等概時,兩者估計結果相同。

深度學習中softmax函式與MLE/MAP的關係
在CS231n課程筆記(https://zhuanlan.zhihu.com/p/20945670?refer=intelligentunit)中,認為softmax的輸出概率是似然函式P(P|w),使交叉熵(負對數概率)降低的最優化過程即為最大似然估計。而加上正則化損失則被比作“加上先驗概率”。

查了一些資料後談一下我對這種比喻的理解:
1.“正則化”與“先驗概率”卻有異曲同工之妙。正則化抑制不合常規的樣本點(噪聲),MAP中考慮先驗概率則是抑制不合常規的概率事件,如例1中硬幣只有正面。
2.兩者只是功能類似,但物理意義上是沒有關係的。
3.且新增正則化損失是加法,考慮先驗概率是乘法。