1. 程式人生 > >最大似然估計,最大後驗估計,貝葉斯估計

最大似然估計,最大後驗估計,貝葉斯估計

這三種方法都是監督學習中的引數估計方法,假定已知data的分佈形式(比如第二章裡介紹的各種分佈),但是需要確定引數。

1 最大似然估計Maximize Likelihood Estimation等價於曲線擬合中的最小二乘法,MLE把待估的引數看作是確定性的量,只是其取值未知,缺點:容易導致過擬合。

最大似然估計提供了一種給定觀察資料來評估模型引數的方法,即:“模型已定,引數未知”。MLE一個非常重要的假設,就是所有采樣必須是i.i.d。

第一步模型選擇,即確定引數的分佈,例如Gaussian distribution;

第二步計算引數的似然函式,一般會取對數運算;

第三步解似然方程。

2 最大後驗估計Maximize A Posterior Estimation等價於曲線擬合中的正則化的最小二乘法,也是假設model的引數是確定量,但是值未定,比MLE多了一項先驗概率。由於引入了先驗概率,可以抑制過擬合現象。

3 Bayesian估計(預測分佈Predictive Distribution)與前面二者不同,預測分佈把待估的引數看做是與先驗概率有類似形式的(contingent prior)隨機變數,是不確定值。對樣本進行觀察的過程,實際就是計算先驗概率和似然函式,計算得到posterior probability,再進行積分。

Bayesian估計不再估計引數,而是估計引數的後驗分佈p(w|D);

不再構建迴歸函式,而是構造一個迴歸模型的分佈密度p(t|x,w);

決策階段利用後驗分佈函式去加權迴歸模型的預測性分佈


把待估計的引數看成是符合某種先驗概率分佈的隨機變數;對樣本進行觀測的過程,就是把先驗概率密度

轉化為後驗概率密度,這樣就利用樣本的資訊修正了對引數的初始估計值。典型的效果是:每得到新的觀測樣本,都使得後驗概率密度函式變得更加尖銳,使其在待估引數的真實值附近形成最大的尖峰,這個現象就稱為“貝葉斯學習”過程。