最大似然估計和最大後驗概率估計的區別

阿新 • • 發佈：2019-01-30

最大似然估計（MLE）
1.似然函式：L(θ|x)=P(X=x|θ)
①物理意義：某次實驗，θ取不同值時，出現X=x的結果的概率；
②似然函式是引數(θ)的函式；
③似然函式是條件轉移概率。

例1：設一枚硬幣正面朝上的概率為p，求兩次拋擲都正面朝上的似然函式。
L(p|HH)=P(HH|p)=p*2
可以看到，L是引數p的似然函式。當p=0.5時，L=0.25，這與實際概率相吻合。當p=1 時,L=1，這表示當這枚硬幣只有正面時，出現“兩次朝上”這一結果的概率為100%。

2.最大似然估計
原理：對某（一批）實驗結果（或者說樣本值）求關於引數的似然函式，並求引數取何值時，似然函式的值最大，該引數即為估計結果，該方法即為最大似然估計法。

例1中，最大似然估計的結果為p=1

最大後驗概率估計（MAP）
1.後驗概率：P(θ|X=x)=P(X=x|θ)P(θ) / P(X=x)
物理意義：某次實驗，樣本為X=x時，θ在不同取值下的概率；
2.最大後驗概率
由於分母P(X=x)=Σi P(X=x|θi)=常數，因而後驗概率P(θ|X=x)取得最大值時，分子也取得最大值，問題就變為求：使得P(X=x|θ)P(θ)取最大值的引數θ。
可以看到，MAP要求取最大值的函式，形式上就是在MLE的似然函式基礎上乘以引數的先驗概率，這表示MAP除了考慮引數與樣本值的聯絡外，還考慮了引數本身的先驗概率。
再看例1，如果用MLE對引數p進行估計，僅根據樣本推斷實際，得出結果“硬幣只有正面”的結論；但用MAP方法時，我們首先認為“硬幣只有正面”這件事情的概率是很低的，因而其後驗概率也低，而P(p=0.5)的概率是最高的，因而乘上條件轉移概率後，其後驗概率也會比較大。

MLE和MAP的比較
異：
1.MLE僅根據已有樣本估計引數，MAP則根據已有樣本和引數的先驗概率共同估計引數；
2.樣本較少時，MAP更準確；樣本比較多時，MLE更省事。
同：
1.MLE和MAP都是點估計；
2.當先驗等概時，兩者估計結果相同。

深度學習中softmax函式與MLE/MAP的關係
在CS231n課程筆記（https://zhuanlan.zhihu.com/p/20945670?refer=intelligentunit）中，認為softmax的輸出概率是似然函式P(P|w)，使交叉熵(負對數概率)降低的最優化過程即為最大似然估計。而加上正則化損失則被比作“加上先驗概率”。

查了一些資料後談一下我對這種比喻的理解：
1.“正則化”與“先驗概率”卻有異曲同工之妙。正則化抑制不合常規的樣本點（噪聲），MAP中考慮先驗概率則是抑制不合常規的概率事件，如例1中硬幣只有正面。
2.兩者只是功能類似，但物理意義上是沒有關係的。
3.且新增正則化損失是加法，考慮先驗概率是乘法。

最大似然估計和最大後驗概率估計的區別

似然函式和最大似然估計與機器學習中的交叉熵函式之間的關係

最大似然估計（MLE）、最大後驗概率估計（MAP）以及貝葉斯學派和頻率學派

最大似然估計和最大後驗概率估計（貝葉斯引數估計）

最大似然估計和最大後驗概率估計的區別

【機器學習基本理論】詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解

最大似然損失和交叉熵損失函式的聯絡

詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解

機器學習概念：最大後驗概率估計與最大似然估計（Maximum posterior probability and maximum likelihood estimation)

01 EM演算法 - 大綱 - 最大似然估計(MLE)、貝葉斯演算法估計、最大後驗概率估計(MAP)

極大似然估計，最大後驗概率估計(MAP)，貝葉斯估計

極大似然估計最大後驗概率估計

貝葉斯估計、最大似然估計、最大後驗概率估計

通俗理解最大似然估計，最大後驗概率估計，貝葉斯估計

似然函式（likelihood）、最大似然函式、最小二乘解

關於最大後驗概率估計就是結構風險最小化的詳解（統計學習方法）

[白話解析] 深入淺出極大似然估計 & 極大後驗概率估計

最小二乘法和最大似然估計的聯系和區別（轉）

伯努利分佈和高斯分佈下的最大似然估計

最大似然和貝葉斯引數估計

點估計（矩估計法和最大似然估計法）

最大似然估計和最大後驗概率估計的區別

相關推薦