1. 程式人生 > >貝葉斯引數估計的理解

貝葉斯引數估計的理解

極大似然估計

貝葉斯估計是引數估計中的一種方法,以貝葉斯思想為基礎,而貝葉斯思想在機器學習中經常用到。機器學習中常涉及貝葉斯網路,最終的問題都是轉化為引數求解。貝葉斯引數估計是這些問題的基礎版本。前方高能預警,本文的講解比較理論。

實際問題中我們會有很多資料,比如一篇文章中每個單詞的詞頻等。我們得到的資料通常用X表示,也稱為樣本。我們還會假設這些資料服從某一個分佈,例如最常用的正態分佈,這時可以將問題表示為XN(μ,σ)μσ表示正態分佈的兩個引數。如果這兩個引數知道了,這個分佈就確定了,從而可以知道資料X的許多性質。最常用的引數估計方法是極大似然(或最大似然估計)估計。

一般的最大似然法求解兩個引數的基本步驟是:

  • 假設每個樣本Xi是獨立同分布(iid)的,即每一個樣本都有XiN(μ,σ).
  • 求所有樣本X的聯合分佈
    因為是iid,所以X的聯合分佈等於每個樣本Xi的概率密度函式的乘積,即:L(μ,σ2;x)=f(x)=(12πσ2)nexp{ni=1(xiμ)22σ2}
  • 對上述聯合分佈的概率密度函式取對數,即:(μ,σ2;x)=logL(μ,σ2;x)=n2log(2πσ2)ni=1(xiμ)22σ2
  • 對上述函式分別求μσ2並另它們等於0,進而求得極值
  • 分別對μσ2求二階偏導,驗證極值是最大值

上述步驟是極大似然法的求解步驟,用到的資訊都是已知樣本的資訊。但是通常在估計引數時我們可能已經對引數有了一個大概的瞭解,比如已經知道μ

σ2的取值範圍。僅僅知道取值範圍還太簡單,有時會更進一步假設μσ2的取值服從某個分佈,這樣問題就變成了在正態分佈中,要估計期望μ和方差σ2的值,但與極大似然法不同的是,我們事先已經知道了μσ2的取值是服從某種分佈的,這個資訊如果不用到引數估計中那真是太浪費了,於是問題變成:如何將這兩個引數的分佈結合到引數估計當中去呢?貝葉斯估計解決了這個問題。

貝葉斯估計(Bayes Estimation)

上述提到的在估計引數之前對引數已經有了瞭解稱為引數的先驗知識。貝葉斯估計即在估計過程中將先驗知識也考慮了進去,博眾家之長總是好的。先驗知識可以是一個具體的值,也可以是取值範圍(函式)。實際應用中,通常會將引數的先驗知識視作一個分佈,那麼這個引數就會有一個概率密度函式,這個pdf叫做引數的先驗概率

一般待估計的一維引數用θ表示,多維用粗體θ. 先驗概率密度函式用符號π(θ)表示。樣本的概率密度函式用f(x|θ)表示,其中加入θ是表示該pdf跟θ有關,同時說明要估計的引數是θ.

貝葉斯估計涉及到三個基本概念,他們長的很像:

  • 損失函式(Loss Funcition)
  • 風險函式(Risk Function)
  • 貝葉斯風險(Bayes Risk)

貝葉斯估計的目的是結合引數的先驗知識,使得估計出來的引數能令貝葉斯風險達到最小。簡單說就是最小化貝葉斯風險。

下面解釋這三個概念。

損失函式

在引數估計問題中,評價估計的好壞就是看估計出來的引數與真值的差距有多小。估計出來的引數通常用θ^表示,引數的真值用θ表示。那麼這個差距如何定義呢?實際上,這個差距就是損失函式。

損失函式有好幾種:

  • L(θ^,θ)=(θ^θ)2
  • L(θ^,θ)=|θ^θ|
  • L(θ^,θ)={01if |θθ^|Δif |θθ^|>Δ

上述是三種常用的損失函式。可以看到當估計值與真實值無限接近時,損失函式都會無限接近0,相當於沒有損失. 損失函式中的估計值θ^是通過樣本計算出來的。比如正態分佈中的μ,我們可以用樣本均值來估計μ,即μ

相關推薦

引數估計理解

極大似然估計 貝葉斯估計是引數估計中的一種方法,以貝葉斯思想為基礎,而貝葉斯思想在機器學習中經常用到。機器學習中常涉及貝葉斯網路,最終的問題都是轉化為引數求解。貝葉斯引數估計是這些問題的基礎版本。前方高能預警,本文的講解比較理論。 實際問題中我們會有很多資料

最大似然和引數估計

引數估計是指已知分類器結構或函式形式,從訓練樣本中估計引數。以貝葉斯分類為例,假定概率密度分佈符合一維高斯分佈,則引數估計的任務就是根據訓練樣本估計μ和σ。常用的引數估計方法有最大似然估計和貝葉斯引數估計法。 最大似然估計 假設引數為確定值,根據似然度最大進行最

最大似然估計和最大後驗概率估計引數估計

舉個例子:偷盜的故事,三個村莊,五個人偷。 村子被不同小偷偷的概率:P(村子|小偷1)、P(村子|小偷2)、P(村子|小偷3) 小偷1的能力:P(偷盜能力)=P(村子1|小偷1)+P(村子2|小偷1)+P(村子3|小偷1)+P(村子4|小偷1)+P(村子5|小偷1) 小

引數估計思想和引數估計

貝葉斯與頻率派思想頻率派思想    長久以來,人們對一件事情發生或不發生,只有固定的0和1,即要麼發生,要麼不發生,從來不會去考慮某件事情發生的概率有多大,不發生的概率又是多大。而且事情發生或不發生的概率雖然未知,但最起碼是一個確定的值。比如如果問那時的人們一個問題:“有一個

【機器學習基本理論】詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及公式的理解

總結 ora 二次 判斷 天都 特性 以及 解釋 意思 【機器學習基本理論】詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解 https://mp.csdn.net/postedit/81664644 最大似然估計(Maximum lik

詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及公式的理解

<svg xmlns="http://www.w3.org/2000/svg" style="display: none;"><path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id=

關於推理的理解

讀《統計學關我什麼事》有感 本質: 當你面對的問題需要你推理,從備選的幾個結果中選一個的時候。你需要根據已有的資訊判斷這幾個備選的結果各自的概率是多少,並選擇概率最大的那一個。那貝葉斯推理是怎麼推的呢。 首先當沒有輔助資訊的時候,咱們對這幾個備選的結果只有一個經驗的概率值。 然後加入

樸素理論--自我理解

例子-正向概率 還是拿質檢員的例子來做分析,假如我是一個質檢員,現在接到了三箱零件需要檢驗,其中第一箱有10個零件,第二箱有20個零件,第三箱有15個。半小時過去了,檢驗的結果出爐,第一箱有1個不合格,第二箱有3個不合格,第三箱2個不合格。 箱子

01 EM演算法 - 大綱 - 最大似然估計(MLE)、演算法估計、最大後驗概率估計(MAP)

EM演算法的講解的內容包括以下幾個方面: 1、最大似然估計2、K-means演算法3、EM演算法4、GMM演算法 __EM演算法本質__是統計學中的一種求解引數的方法,基於這種方法,我們可以求解出很多模型中的引數。 1、最大似然估計在__求解線性模型__的過程中,我們用到了__最大似然估計(MLE)

誤差的理解

以中國歷史所有股票的行情交易資料來預測明天的漲跌方向;那麼理論上存在無數個學習器,按照學習器的誤差來升序排列,排名第一的誤差就是貝葉斯誤差;如果明天的漲跌方向完全決定於行情資料,那麼理論上的貝葉斯誤差為0,但行情資料的資訊不夠充分的,行情資料的資訊發揮到極致,也會存在一個誤差

模型的理解(2)

讀了之前一篇文章,應該對先驗資訊和最大似然函式有了一定的理解,那下面來說貝葉斯模型最後一個總要概念:後驗概率。 在上篇文章中,我們通過求解似然函式的概率最大值,求得了引數r,大家還會發現,提前拋硬幣的次數不同,r最後的取值是不同的。 大家記住這個公式:後驗概

樸素分類演算法理解及文字分類器實現

貝葉斯分類是一類分類演算法的總稱,這類演算法均以貝葉斯定理為基礎,故統稱為貝葉斯分類。本文作為分類演算法的第一篇,將首先介紹分類問題,對分類問題進行一個正式的定義。然後,介紹貝葉斯分類演算法的基礎——貝葉斯定理。最後,通過例項討論貝葉斯分類中最簡單的一種:樸素貝葉斯分類。

全概公式和公式的理解

條件概率 首先,理解這兩個公式的前提是理解條件概率,因此先複習條件概率。 P(A|B)=P(AB)P(B) 理解這個可以從兩個角度來看。 第一個角度:在B發生的基礎上,A發生的概率。那麼B發生這件事已經是個基礎的條件了,現在進入B已經發生的世界,看看A發

公式的理解

最近我自己在學習一些關於機器學習的東西,目前學到了貝葉斯統計這一塊,我覺得很感興趣,於是便找了一些資料看了看,在自己琢磨一段時間後,寫了一篇部落格,原文地址:機器學習(一) —— 淺談貝葉斯和MCMC。正好題主也說了希望從哲學角度解釋一下,我自認為文章寫得還算深入淺出,能給大家帶來幫助。為了有打廣告之嫌疑,我

【IM】從角度理解生成式和判別式及引數估計方法

生成式和判別式及引數估計方法,綜合如下博文,參考《圖解機器學習》一書,有如下兩頁理解。 https://blog.csdn.net/fjssharpsword/article/details/79297306 https://blog.csdn.net/fjssharpsword/art

極大似然估計理解

轉自http://blog.csdn.net/zengxiantao1994/article/details/72787849 極大似然估計         以前多次接觸過極大似然估計,但一直都不太明白到底什麼原理,最近在看貝葉斯分類,

通過簡單例子來理解先驗分佈、後驗分佈、似然估計&&公式

這幾個概念可以用“原因的可能性”和“結果的可能性”的“先後順序”及“條件關係”來理解。下面舉例: 隔壁老王要去10公里外的一個地方辦事,他可以選擇走路,騎自行車或者開車,並花費了一定時間到達目的地。在這個事件中,可以

R語言Copula的引數估計

Copula可以完全表徵多個變數的依賴性。本文的目的是提供一種貝葉斯非引數方法來估計一個copula,我們通過混合一類引數copula來做到這一點。特別地,我們表明任何雙變數copula密度可以通過高斯copula密度函式的無限混合任意精確地近似。該模型可以通過馬爾可夫鏈蒙特

引數估計:最大似然、與最大後驗

來源:https://guangchun.wordpress.com/ 中國有句話叫“馬後炮”,大體上用在中國象棋和諷刺人兩個地方,第一個很厲害,使對方將帥不得動彈,但這個跟我們今天說的基本沒關係;第二個用途源於第一個,說事情都發生了再採取措施,太遲了。但不可否認,我們的認知就是從錯誤中不斷進步,雖然

【數學基礎】引數估計估計

從統計推斷講起 統計推斷是根據樣本資訊對總體分佈或總體的特徵數進行推斷,事實上,這經典學派對統計推斷的規定,這裡的統計推斷使用到兩種資訊:總體資訊和樣本資訊;而貝葉斯學派認為,除了上述兩種資訊以外,統計推斷還應該使用第三種資訊:先驗資訊。下面我們先把是那種資訊加以說明。