1. 程式人生 > >【機器學習】先驗概率、後驗概率、貝葉斯公式、 似然函式

【機器學習】先驗概率、後驗概率、貝葉斯公式、 似然函式

Original url:

http://m.blog.csdn.net/article/details?id=49130173

一、先驗概率、後驗概率、貝葉斯公式、 似然函式

在機器學習中,這些概念總會涉及到,但從來沒有真正理解透徹他們之間的聯絡。下面打算好好從頭捋一下這些概念,備忘。

1、先驗概率

先驗概率僅僅依賴於主觀上的經驗估計,也就是事先根據已有的知識的推斷,先驗概率就是沒有經過實驗驗證的概率,根據已知進行的主觀臆測。

如拋一枚硬幣,在拋之前,主觀推斷P(正面朝上) = 0.5。

2、後驗概率

後驗概率是指在得到“結果”的資訊後重新修正的概率,如貝葉斯公式中的。是“執果尋因”問題中的”果”。先驗概率與後驗概率有不可分割的聯絡,後驗概率的計算要以先驗概率為基礎。解釋下來就是,在已知果(B)的前提下,得到重新修正的因(A)的概率P(A|B),稱為A的後驗概率,也即條件概率。後驗概率可以通過貝葉斯公式求解

3、貝葉斯公式

貝葉斯公式,用來描述兩個條件概率(後驗概率)之間的關係,比如 P(A|B) 和 P(B|A)。按照乘法法則:

P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)

如上公式也可變形為:

P(A|B)=P(A)P(B|A)/P(B)      P(B)為標準化常量

貝葉斯法則表述如下: 
一般公式 
這裡寫圖片描述 
其中 
A1,,,,,,An為完備事件組,即 
這裡寫圖片描述

舉一個簡單的例子:一口袋裡有3只紅球、2只白球,採用不放回方式摸取,求:
⑴ 第一次摸到紅球(記作A)的概率;
⑵ 第二次摸到紅球(記作B)的概率;
⑶ 已知第二次摸到了紅球,求第一次摸到的是紅球的概率。

解: 
⑴ P(A)=3/5,這就是A的先驗概率; 
⑵ P(B)=P(B|A)P(A)+P(B|A逆)P(A逆)=3/5 此稱為準化常量,A與A逆稱為完備事件組 
⑶ P(A|B)=P(A)P(B|A)/P(B)=1/2,這就是A的後驗概率。

4、似然函式

1)概念

在數理統計學中,似然函式是一種關於統計模型中的引數的函式,表示模型引數中的似然性。 
似然函式在統計推斷中有重大作用,如在最大似然估計和費雪資訊之中的應用等等。“似然性”與“或然性”或“概率”意思相近,都是指某種事件發生的可能性,但是在統計學中,“似然性”和“或然性”或“概率”又有明確的區分。 
概率用於在已知一些引數的情況下,預測接下來的觀測所得到的結果,而 
似然性 則是用於在已知某些觀測所得到的結果時,對有關事物的性質的引數進行估計。 
舉例如下:

對於“一枚正反對稱的硬幣上拋十次”這種事件,我們可以問硬幣落地時十次都是正面向上的“概率”是多少;
而對於“一枚硬幣上拋十次,落地都是正面向上”這種事件,我們則可以問,這枚硬幣正反面對稱(也就是正反面概率均為0.5的概率)的“似然”程度是多少。

2)定義

給定輸出x時,關於引數θ的似然函式L(θ|x)(在數值上)等於給定引數θ後變數X=x的概率:

L(θ|x)=P(X=x|θ).

公式解釋如下:對引數θ的似然函式求值,(在數值上)等於觀測結果X在給定引數θ下的條件概率,也即X的後驗概率。一般似然函式的值越大表明在結果X=x下,此引數θ越合理。 
因此形式上,似然函式也是一種條件概率函式,但我們關注的變數改變了,關注的是A取值為引數θ的似然值:

θ <---> P(B | A = θ)

因此說貝葉斯公式P(A|B)=P(B|A)P(A)/P(B)在形式上也可以表述為:

A的後驗概率 = (A的似然度 * A的先驗概率)/標準化常量 

也就是說,後驗概率與先驗概率和似然度的乘積成正比。 
注意到這裡並不要求似然函式滿足歸一性:∑P(B | A = θ)= 1 
一個似然函式乘以一個正的常數之後仍然是似然函式。對所有α > 0,都可以有似然函式:

L(θ|x)=αP(X=x|θ).

3)舉例

舉例如下:考慮投擲一枚硬幣的實驗。通常來說,已知投出的硬幣正面朝上和反面朝上的概率各自是pH= 0.5,便可以知道投擲若干次後出現各種結果的可能性。比如說,投兩次都是正面朝上的概率是0.25。用條件概率表示,就是:

P(HH | pH = 0.5) = 0.5^2 = 0.25

其中H表示正面朝上。

在統計學中,我們關心的是在已知一系列投擲的結果時,關於硬幣投擲時正面朝上的可能性的資訊。我們可以建立一個統計模型:假設硬幣投出時會有pH的概率正面朝上,而有1 −pH的概率反面朝上。這時,條件概率可以改寫成似然函式:

L(pH = 0.5 | HH) = P(HH | pH = 0.5) = 0.25

也就是說,對於取定的似然函式,在觀測到兩次投擲都是正面朝上時,pH= 0.5的似然性(可能性)是0.25(這並不表示當觀測到兩次正面朝上時pH= 0.5的概率是0.25)。 
如果考慮pH= 0.6,那麼似然函式的值也會改變。

L(pH = 0.6 | HH) = P(HH | pH = 0.6) = 0.36

注意到似然函式的值變大了。這說明,如果引數pH的取值變成0.6的話,結果觀測到連續兩次正面朝上的概率要比假設pH= 0.5時更大。也就是說,引數pH取成0.6 要比取成0.5 更有說服力,更為“合理”。總之,似然函式的重要性不是它的具體取值,而是當引數變化時函式到底變小還是變大。對同一個似然函式,如果存在一個引數值,使得它的函式值達到最大的話,那麼這個值就是最為“合理”的引數值。 
在這個例子中,似然函式實際上等於:

L(pH = θ | HH) = P(HH | pH = θ) =  θ^2

如果取pH= 1,那麼似然函式達到最大值1。也就是說,當連續觀測到兩次正面朝上時,假設硬幣投擲時正面朝上的概率為1是最合理的。 
類似地,如果觀測到的是三次投擲硬幣,頭兩次正面朝上,第三次反面朝上,那麼似然函式將會是:

L(pH = θ | HHT) = P(HHT | pH = θ) =  θ^2(1- θ),其中T表示反面朝上,0 <= pH <= 1

這時候,似然函式的最大值將會在pH = 2/3的時候取到。也就是說,當觀測到三次投擲中前兩次正面朝上而後一次反面朝上時,估計硬幣投擲時正面朝上的概率pH = 2/3是最合理的。


相關推薦

機器學習MAP最大估計和ML最大估計區別

A maximum a posteriori probability (MAP) estimate is an estimate of an unknown quantity, that equals the mode of the posterior distribution. The MAP can

機器學習先驗概率函式概率對數函式等概念的理解

1)先驗:統計歷史上的經驗而知當下發生的概率; 2)後驗:當下由因及果的概率; 2、網上有個例子說的透徹: 1)先驗——根據若干年的統計(經驗)或者氣候(常識),某地方下雨的概率; 2)似然——看到了某種結果,對產生結果的原因作出假設:是颳風了?還是有烏雲?還是

機器學習先驗概率概率公式 函式

Original url: http://m.blog.csdn.net/article/details?id=49130173 一、先驗概率、後驗概率、貝葉斯公式、 似然函式 在機器學習中,這些概念總會涉及到,但從來沒有真正理解透徹他們之間的聯絡。下面打算好好從

機器學習概念:最大概率估計與最大估計 (Maximum posterior probability and maximum likelihood estimation)

joey 周琦 假設有引數 θ \theta, 觀測 x \mathbf{x}, 設 f(x|θ) f(x|\theta)是變數 x x的取樣分佈, θ \th

機器學習先驗分佈,分佈,共軛先驗分佈

共軛先驗分佈的提出:某觀測資料服從概率分佈p(θ),當觀測到新的資料時,思考下列問題: 1.能否根據新觀測資料X更新引數θ; 2.根據新觀測的資料可以在多大的程度上改變引數θ:θ=θ+rθ; 3.當重

公式先驗概率概率

先驗概率:         在缺少某個前提下的變數概率,在機器學習中就是沒有訓練樣本,在訓練之前的初始概率:P(w) 後驗概率:         在有了樣本資料以後,對變數進行概率的修正,得到的概率就是後驗概率,,例如g是樣本,則後驗概率是:P(w | g) 貝葉斯公式:

機器學習實戰》筆記(三):樸素

4.1 基於貝葉斯決策理論的分類方法 樸素貝葉斯是貝葉斯決策理論的一部分,貝葉斯決策理論的的核心思想,即選擇具有最高概率的決策。若p1(x,y)和p2(x,y)分別代表資料點(x,y)屬於類別1,2的概率,則判斷新資料點(x,y)屬於哪一類別的規則是: 4.3 使用條件概率來分類

機器學習(3):基於概率論的分類方法:樸素

概述 優點:在資料較少的情況下仍然有效,可以處理多類別問題。 缺點:對於輸入資料的準備方式較為敏感。 使用資料型別:標稱型資料。 貝葉斯決策理論的核心思想:選擇具有最高概率的決策。 使用條件概率來分類 對於某個資料點x,y: 如果,那麼屬於類別 如果,那麼屬於類

機器學習實戰——基於概率論的分類方法:樸素(二)

                                      使用貝葉斯過濾垃圾郵件 1.準備資料:切分文字 將字串切分為詞列表時,倘若沒有split引數,則標點符號也會被當成詞的一部分,可以使用正則表示式來切分句子,其中分隔符是除了單詞,數字之外的任意字串

機器學習實戰讀書筆記(四):樸素演算法

樸素貝葉斯 優點: 在資料較少的情況下仍然有效 可以處理多類別問題 缺點:對輸入的資料的準備方式較為敏感 適用資料型別:標稱型資料 p1(x,y)>p2(x,y) 那麼類別是1 p2(x,y)>p1(x,y) 那麼類別是2 貝葉斯決策的核心是選擇具有最高概率的決策

機器學習系列(2):logistic迴歸,(bayes)方法

前言:這章主要介紹logistic迴歸和bayes法。兩者都屬分類,前者引入了logistic函式,後者引入了貝葉斯定理,都是比較基礎的數學知識。             但是logistic無需先驗的訓練樣本,後者需要。              貝葉斯法很強大,很多郵件

Python《機器學習實戰》讀書筆記(四)——樸素

第四章 基於概率論的分類方法:樸素貝葉斯 4-1 基於貝葉斯決策理論的分類方法 優點:在資料較小的情況下仍然有效,可以處理多類別問題 缺點:對於輸入資料的準備方式較為敏感。 適用資料型別:標稱型資料。 假設現在我們有一個數據集,它由兩類資

最大估計最大估計和估計的關係

        最大似然估計(MLE) 原理:設X1, X2…Xn是取自總體X的一個樣本,樣本的聯合密度(連續型)或聯合概率密度(離散型)為f(X1, X2…Xn; Θ)。當給定樣本X1, X2…Xn時,定義似然函式為L(Θ)= f(X1, X2…Xn; Θ)。 L(Θ)

最大估計,最大估計,估計聯絡與區別

1.什麼是引數 在機器學習中,我們經常使用一個模型來描述生成觀察資料的過程。例如,我們可以使用一個隨機森林模型來分類客戶是否會取消訂閱服務(稱為流失建模),或者我們可以用線性模型根據公司的廣告支出來預測公司的收入(這是一個線性迴歸的例子)。每個模型都包含自己的

最大估計,最大估計,估計

這三種方法都是監督學習中的引數估計方法,假定已知data的分佈形式(比如第二章裡介紹的各種分佈),但是需要確定引數。 1 最大似然估計Maximize Likelihood Estimation等價於曲線擬合中的最小二乘法,MLE把待估的引數看作是確定性的量,只是其取值未知

機器學習基本理論詳解最大估計(MLE)最大概率估計(MAP),以及公式的理解

總結 ora 二次 判斷 天都 特性 以及 解釋 意思 【機器學習基本理論】詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解 https://mp.csdn.net/postedit/81664644 最大似然估計(Maximum lik

先驗概率概率函數與機器學習概率模型(如邏輯回歸)的關系理解

集中 並且 結果 概率論 但我 evidence logs 硬幣 之前 看了好多書籍和博客,講先驗後驗、貝葉斯公式、兩大學派、概率模型、或是邏輯回歸,講的一個比一個清楚 ,但是聯系起來卻理解不能 基本概念如下 先驗概率:一個事件發生的概率 \[P(y)\] 後驗概

先驗概率概率函式機器學習概率模型(如邏輯迴歸)的關係理解

看了好多書籍和部落格,講先驗後驗、貝葉斯公式、兩大學派、概率模型、或是邏輯迴歸,講的一個比一個清楚 ,但是聯絡起來卻理解不能   基本概念如下   先驗概率:一個事件發生的概率 \[P(y)\] 後驗概率:一個事件在另一個事件發生條件下的條件概率 \[P(y|x

機器學習線性迴歸(最大估計+高先驗

引言 如果要將極大似然估計應用到線性迴歸模型中,模型的複雜度會被兩個因素所控制:基函式的數目(的維數)和樣本的數目。儘管為對數極大似然估計加上一個正則項(或者是引數的先驗分佈),在一定程度上可以限制模型的複雜度,防止過擬合,但基函式的選擇對模型的效能仍然起著決定性的作用。

機器學習隨機森林 Random Forest 得到模型,評估參數重要性

img eas 一個 increase 裏的 sum 示例 增加 機器 在得出random forest 模型後,評估參數重要性 importance() 示例如下 特征重要性評價標準 %IncMSE 是 increase in MSE。就是對每一個變量 比如 X1