1. 程式人生 > >最大似然估計與最小二乘

最大似然估計與最小二乘

現在 最小 bayesian 我不知道 什麽 改變 我不 tps 有關

參考: 最大似然估計,就是利用已知的樣本結果反推最有可能(最大概率)導致這樣結果的參數值。
例如:一個麻袋裏有白球與黑球,但是我不知道它們之間的比例,那我就有放回的抽取10次,結果我發現我抽到了8次黑球2次白球,我要求最有可能的黑白球之間的比例時,就采取最大似然估計法。

MLE可以看作一種特殊情況下的Bayesian 估計,具體來說,就是在prior (先驗)是 diffuse (無知的)情況下,讓posterior(後驗) 分布取得極大值的系數值。我們有一些理論模型,記作 "model",這個model 是什麽,在很多實踐中,就是一個模型中關鍵系數的值是什麽這樣的問題(不同的系數的值,我們稱作不同的model) 。我們現在又觀測到一組數據,記作"observation"。那麽問題來了,給定一個model (一組關鍵系數的值)

,必然會有關於observation 的分布密度函數,所以我們知道P(observation|model) (給定一個model,observation的條件分布)的函數形式。

我們真正關心的,卻是 P(model|observation) 的函數形式,也就是給定了當前的observation (observation是實際觀測到的,是確定下來的),到底不同的model的概率是什麽。當然,一個很貪心的做法,就是找到那個能把P(model|observation) 取到最大值的model (給定某個觀測,最有可能的model)。

現在根據貝耶斯原理,

P(model|observation) = [ P(observation|model) * P(model) ]/ P(observation)

其中P(observation) 不太重要,因為我們想知道不同model 是如何影響 P(model|observation)的,或者是貪心的求P(model|observation)的最大值。而P(observation)已經固定下來了,不隨model改變,所以我們無視他。

我們如果知道 P(model)(所謂的Prior) 的函數形式,那麽就沒有什麽問題了。此時的P(model|observation)是一個關於model 的函數。報告這個P(model|observation)作為model的函數的函數形式,就叫貝耶斯估計。可是,這需要我們知道P(model)。實際中我們不知道這個玩意,所以一般我們猜一個。

我們如果承認不知道P(model),認為我們對他是無知的話,那麽P(model) = 常數 for all model,此時求P(model|observation) 最大值,也就等價於求P(observation|model) 的最大值,這就叫做MLE。

最小二乘:找到一個(組)估計值,使得實際值與估計值的距離最小。本來用兩者差的絕對值匯總並使之最小是最理想的,但絕對值在數學上求最小值比較麻煩,因而替代做法是,找一個(組)估計值,使得實際值與估計值之差的平方加總之後的值最小,稱為最小二乘。“二乘”的英文為least square,其實英文的字面意思是“平方最小”。這時,將這個差的平方的和式對參數求導數,並取一階導數為零,





最大似然估計與最小二乘