【轉載】引數估計(Parameter Estimation):頻率學派(最大似然估計MLE、最大後驗估計MAP)與貝葉斯學派(貝葉斯估計BPE)
基礎
頻率學派與貝葉斯學派
最大似然估計(Maximum likelihood estimation,MLE)
最大後驗估計(maximum a posteriori estimation,MAP)
貝葉斯估計(Bayesian parameter estimation,BPE)
經典引數估計方法:普通最小二乘(OLS)、最大似然(ML)和矩估計(MM)
貝葉斯定理與貝葉斯估計
引數估計
從二項式分佈到多項式分佈-從Beta分佈到Dirichlet分佈
引數估計是一個重要的話題。對於典型的離散型隨機變數分佈:二項式分佈,多項式分佈;典型的連續型隨機變數分佈:正態分佈。他們都可以看著是引數分佈,因為他們的函式形式都被一小部分的引數控制,
對於引數估計,一直存在兩個學派的不同解決方案。一是頻率學派解決方案:通過某些優化準則(比如似然函式)來選擇特定引數值;二是貝葉斯學派解決方案:假定引數服從一個先驗分佈,通過觀測到的資料,使用貝葉斯理論計算對應的後驗分佈。先驗和後驗的選擇滿足共軛,這些分佈都是指數簇分佈的例子。
引數估計方法的一個限制:是我們人為的假定了引數分佈服從了某種指定形式的分佈函式,這可能在某些特定情況下是不合適的。有一種可選的解決方案是:非引數密度估計
經典估計與貝葉斯估計
文字語言模型的引數估計-最大似然估計、MAP及貝葉斯估計
語言模型的引數估計-最大似然估計、MAP及貝葉斯估計
引數估計:最大似然、貝葉斯與最大後驗
貝葉斯估計淺析
極大似然估計和貝葉斯估計
貝葉斯方法與經典估計方法的主要不同
1、關於引數的解釋不同
經典估計方法認為待估引數具有確定值,它的估計量才是隨機的,如果估計量是無偏的,該估計量的期望等於那個確定的引數;而貝葉斯方法認為待估引數是一個服從某種分佈的隨機變數。
2、所利用的資訊不同
經典方法只利用樣本資訊;貝葉斯方法要求事先提供一個引數的先驗分佈,即人們對有關引數的主觀認識,被稱為先驗資訊,是非樣本資訊,在引數估計過程中,這些非樣本資訊與樣本資訊一起被利用。
3、對隨機誤差項的要求不同
經典方法,除了最大似然法,在引數估計過程中並不要求知道隨機誤差項的具體分佈形式,但是在假設檢驗與區間估計時是需要的;貝葉斯方法需要知道隨機誤差項的具體分佈形式。
4、選擇引數估計量的準則不同
經典估計方法或者以殘差平方和最小,或者以似然函式值最大為準則,構造極值條件,求解引數估計量;貝葉斯方法則需要構造一個損失函式,並以損失函式最小化為準則求得引數估計量。
最大似然估計、貝葉斯估計兩類引數估計的對比
最大似然估計:把待估計的引數看作是確定性的量(只是其取值未知),其最佳估計就是使得產生已觀察到的樣本(即訓練樣本)的概率為最大的那個值。(即求條件概率密度p(D|$)為最大時的$,其中D為樣本集,$為條件概率密度分佈的引數)。特點:簡單適用;在訓練樣本增多時通常收斂得很好。
最大後驗估計(MAP-Maxaposterior):求p(D|$)*p($)取最大值的那個引數向量$,最大似然估計可以理解為當先驗概率p($)為均勻分佈時的MAP估計器。(MAP缺點:如果對引數空間進行某些任意非線性變換,如旋轉變換,那麼概率密度p($)就會發生變化,其估計結果就不再有效了。)
貝葉斯估計:把待估計的引數看成是符合某種先驗概率分佈的隨機變數;對樣本進行觀測的過程,就是把先驗概率密度轉化為後驗概率密度,這樣就利用樣本的資訊修正了對引數的初始估計值。典型的效果是:每得到新的觀測樣本,都使得後驗概率密度函式變得更加尖銳,使其在待估引數的真實值附近形成最大的尖峰,這個現象就稱為“貝葉斯學習”過程。
最大似然估計(Maximumlikelihoodestimation)
最大後驗估計(MAP)
最大似然估計只考慮某個模型能產生某個給定觀察序列的概率,而未考慮該模型本身的概率,這點與貝葉斯估計區別。
最大後驗估計根據經驗資料獲得對難以觀察的量的點估計。與最大似然估計類似,但是最大的不同時,最大後驗估計的融入了要估計量的先驗分佈在其中,可看做是規則化的最大似然估計。
MAP與MLE最大區別是MAP中加入了模型引數本身的概率分佈,或者說,MLE中認為模型引數本身的概率的是均勻的,即該概率為一個固定值。
總結
貝葉斯估計
方法比較
其他
最大似然估計&貝葉斯估計
概率空間的定義為(Omega,F,P)。在概率圖模型中,一個問題是從已知的抽樣中估計概率測度P。通常,有兩種估計的方法:一是最大似然估計,一是貝葉斯估計。比如,投硬幣的問題,30上,20下,就估計上的概率為3/5,這樣的估計可以使似然度最大。而貝葉斯主義者認為還應該有更多的先驗知識,比如我們早就知道這樣的概率取值為1/2的概率相對最大,加入這樣的知識後運用貝葉斯公式估計出來的概率就與最大似然法的結果不同。可以想像當先驗知識可靠的時候,這樣的估計會更準確的。
形式化一點,投硬幣的概率空間為({正,反},{{正},{反}},{(正,p),(反,1-p)})。最大似然直接在這樣的空間上估計p。而貝葉斯主義者將所有p決定的測度P看成是另一個Omega*,即概率本身是另一個概率空間中的一個取樣。這另一個空間有自己的另一套測度P*。比如投幣問題中Omega*是所有可能拿到的硬幣,顯然P*會告訴我們不同的硬幣會有不同的p。如果這樣的P*能夠很好的得到,那麼這樣估計的概率會更有說服力。
那麼我想做一些引申,既然一個正反面的概率測度P可以是一個更大的空間中依P*的取樣,那麼P*本身為什麼不是從另一個更大空間中取樣出來的呢。比如考慮溫度、溼度、表面粗糙度、重力加速度等條件,會得到另一個概率空間Omega**,不同的環境條件決定了各個硬幣正面概率的變化,故是這樣的空間取樣了P*。如果我們同樣能夠清晰描述P**,這顯然也是合理且有說服力的。
最大似然的模型,可以叫做零階模型(名字是我自己杜撰的),而貝葉斯方法的模型可以叫做一階模型,用同樣的方法可以產生二階、三階以及更高階的模型。前提是我們能夠清晰的描述這些概率分佈是如何從另一個概率分佈中取樣出來的。
一個問題是,這樣的過程可以無限進行嗎,任何實際的概率空間都可以這樣嗎,這樣的過程都合理且有意義嗎。
我這裡想說的是,至少有一種實際的測度,不需要再做這樣的泛化了。這樣的測度就是“宇宙的本質規律”,它賦予任何實在的事件以概率,而它不再是根據某個P*取樣出來的了。解釋有兩點:第一,這些規律有唯一的取值,如果某個規律每次測量會變化,那麼必有更高的不變的規律解釋這樣的變化,從而前者不是“本質規律”,後者才是;第二,如果非要假想有另一種賦值的宇宙規律,而由於我們只可能知道P下的一切,對這樣的P*我們不可能有任何認識,所以這樣的泛化是無意義的。
形而上學會討論可能宇宙,會討論或然宇宙中是否有必然存在物,會討論宇宙的常數是被如何精巧的設定以至於很幸運地產生了現在的宇宙的樣子。我想得出的結論是,除了現在的宇宙外我們一無所知,連宇宙之外的這個規律P*都不知道哪怕一點點,又如何談論它和他所測量的空間Omega*的性質呢。在這個範圍內的任何設定都不會與現實宇宙中的任何現象概率相關,在概率圖中他們被我們“宇宙的本質規律”這個節點阻斷了。可能有可能宇宙,但我們的宇宙與這個宇宙無關。
第三章模式識別-最大似然估計和貝葉斯引數估計
哲學對比
舉例:設引數為桌子的長度,估計該引數,通過測量得到了不同時刻測量的長度值{x1,x2,…,xn}。
唯物主義的方法:長度是確定的;估計方法有均值、中值等
唯心主義的方法:長度是不確定的,即變數;估計方法給出各個取值的可能性(概率)或者分佈。
在引數估計的數學表達上,唯物主義的結果是得到一個確定的值來作為估計的結果。而貝葉斯則得到一個概率值來作為估計結果,而必須是變數才有概率意義,這也是貝葉斯將引數做作不確定變數的直接數學表達。
經典學派是唯物主義,從理性出發,認為引數是確定的。貝葉斯學派是唯心學派,從感性出發,不同的測量樣本空間確實得到了不同的值,因此是隨機變數;
在實際的應用中,貝葉斯的方法比經典學派要好。
最大似然/貝葉斯分類
與分佈有關的統計分類方法主要有最大似然/貝葉斯分類。最大似然分類是影象處理中最常用的一種監督分類方法,它利用了遙感資料的統計特徵,假定各類的分佈函式為正態分佈,在多變數空間中形成橢圓或橢球分佈,也就是和中個方向上散佈情況不同,按正態分佈規律用最大似然判別規則進行判決,得到較高準確率的分類結果。否則,用平行六面體或最小距離分類效果會更好。
分類步驟:
1、確定需要分類的地區和使用的波段和特徵分類數,檢查所用各波段或特徵分量是否相互已經位置配準;
2、根據已掌握的典型地區的地面情況,在影象上選擇訓練區;
3、計算引數,根據選出的各類訓練區的影象資料,計算和,確定先驗概率;
4、分類,將訓練區以外的影象像元逐個逐類代入公式,對於每個像元,分幾類就計算幾次,最後比較大小,選擇最大值得出類別;
5、產生分類圖,給每一類別規定一個值,如果分10類,就定每一類分別為1,2……10,分類後的像元值便用類別值代替,最後得到的分類影象就是專題影象.由於最大灰階值等於類別數,在監視器上顯示時需要給各類加上不同的彩色;
6、檢驗結果,如果分類中錯誤較多,需要重新選擇訓練區再作以上各步,直到結果滿意為止。
這種方法的優點是,對符合正態分佈的樣本P聚類組而言,是監督分類中較準確的分類器,因為考慮的因素較多;與Mahalanobis距離一樣.通過協方差矩陣考慮了型別內部的變化。缺點是,擴充套件後的等式計算量較大,當輸入波段增加時,計算時間相應增加;最大似然是引數形式的,意味著每一輸入波段必須符合正態分佈;在協方差矩陣中有較大值時,易於對模板分類過頭,如果在聚類組或訓練樣本中的象素分佈較分散,則模板的協方差矩陣中會出現大值。