1. 程式人生 > >PRML 02 Introduction:貝葉斯概率

PRML 02 Introduction:貝葉斯概率

主要講解了貝葉斯概率與統計派概率的不同。概率論,決策論,資訊理論(probability theory, decision theory, and information theory)是以後用到的三個重要工具,本節主要介紹概率論,這裡的介紹還是結合前面的多項式擬合的例子講解。

1 引言

模式識別中一個重要的概念就是不確定性,而概率論可以很好的解釋不確定性,在結合後面講學到的決策論時,會利用概率論的方法,充分利用現有的資訊得到一個最優解。
這部分需要提前瞭解以下三個概念和三個理論:
這裡寫圖片描述

這裡寫圖片描述
下面開始進入例子:
這裡寫圖片描述

有兩個盒子(box記為B),紅色記為r藍色記為b,也就是B(r),B(b)
裡面有蘋果與橘子,黃色代表橘子o,綠色代表蘋果a。
假設:這裡寫圖片描述


(也可認為有紅盒子4個,藍盒子6個)
那麼我們可以知道一下四個條件概率:
這裡寫圖片描述
問題1:抓到紅色蘋果的概率是多少?
想必這問題還是挺簡單的
這裡寫圖片描述
問題2:如果抓到的是橘子,那麼是從紅色箱子拿出來的概率是多少?
這裡要用到貝葉斯概率了
這裡寫圖片描述
這裡p(B)是先驗概率,p(B|F)是後驗概率
另外還需要知道的一個概念就是獨立變數,如果兩個變數獨立,那麼P(x,y)=p(x)p(y).或者p(x|y)=p(x),這個例子中如果兩個盒子的橘子和蘋果的比例相同,那麼選取盒子和選取水果這個兩個變數就是相互獨立的。
明白上面的知識,就可以繼續向下看了。

2 概率密度

這裡寫圖片描述
對於連續變數,如果x在(

x,x+δ)中的概率為p(x)δx那麼這裡的p(x)就是概率密度,這裡定義累積分佈函式
這裡寫圖片描述
可以看到概率密度是累積分佈函式的微分

這裡還需要知道自變數函式的概率密度的,假設x=g(y),因為這裡寫圖片描述,我們需要求y的概率密度,則:
這裡寫圖片描述

當x為多個變數時,此時的密度函式為聯合概率密度。
引言中提到的三個理論同樣適用於概率密度函式,其sum rule 和product rule 如下:
這裡寫圖片描述

3 期望和協方差 Expectations and covariances

3.1加權平均值

在離散變數中的加權平均值計算公式如下:
這裡寫圖片描述
相應的連續變數的為:
這裡寫圖片描述
其中f(x)為權重函式。
如果已知N個點的值,我們可以按照下式估計其加權平均值,如果N趨於無窮,那麼他的值應該與上面的式子結果相同。
這裡寫圖片描述

3.2 多變數權重

另外,還有一種可能是,我們的權重函式是多變數的,這時候我們可以通過新增下標來表明是求那個變數的加權平均值,下式是求x的加權平均值:
這裡寫圖片描述
值得注意的是其結果不是一個常數,而是一個關於y的函式。

3.3 條件期望

還有一種條件期望,下式為離散變數的形式
這裡寫圖片描述

3.4 函式方差

變數函式的方差為:
這裡寫圖片描述
這裡寫圖片描述

3.5 協方差

變數的協方差為:
這裡寫圖片描述
協方差矩陣為:
這裡寫圖片描述

4 Bayesian Probability

目前為止我們都是以隨機可重複事件的頻率出發,來看待概率的,這樣的視角叫作經典概率或者頻率派概率。現在我們將用貝葉斯的視角重新審視人生,這種Bayesian 概率,它的不同在於引入了不確定的因素。
我們用概率來表達不確定性,在上節多項式擬閤中,使用頻率派的觀點已經很合理的解決了這個問題,但是我們還可以通過貝葉斯的觀點來定性和定量的分析各個引數的不確定性。
之前我們在研究拿水果的問題時,我們通過貝葉斯公式用先驗概率求得了後驗概率,在後面我們也會用類似的方法來求多項式擬閤中引數的不確定性,其公式如下:
這裡寫圖片描述
(從這裡開始就不太好理解了,建議結合原書和後面給的連結多讀幾遍)
p(w|D)的意思就是在現有觀察的資料D的前提下w的不確定性。
p(D|w)是在w的條件下出現D的可能性,也叫作似然函式。
在頻率派中p(D|w)是將w看做確定數值,誤差是由D的分佈決定的;而貝葉斯派則是將w看作是不確定的,誤差是由w的分佈決定的。
http://www.aiweibang.com/yuedu/52652665.html有個好點的解釋
這裡寫圖片描述
裡面也解釋了這裡寫圖片描述有興趣的可以看看。文中指出如果引數比較多,這裡的p(D)就是多重積分了,所以在馬爾科夫鏈等方法出來之前貝葉斯的運用較少。

5高斯分佈

高斯分佈也叫正態分佈,其一元表示式如下:
這裡寫圖片描述
一階矩:
這裡寫圖片描述
二階矩:
這裡寫圖片描述
方差:
這裡寫圖片描述
多元表示式:
這裡寫圖片描述
μ是n維均值,Σ是協方差矩陣,|Σ|是它的行列式。
設x獨立同分布,其似然函式為:
這裡寫圖片描述
這裡文中之處,在求p(x|引數)的最大似然估計和p(引數|x)是有聯絡的。
現在利用上式求最大似然估計的μσ2的值。對其求對數,然後加負號,求極小值得到以下結果:
這裡寫圖片描述
這裡寫圖片描述
高斯分佈中μσ2相互獨立,可以計算出μ的值之後代入sigma的計算公式中。
對其計算結果求均值得到:
這裡寫圖片描述
可以看出方差並不是無偏估計,下圖是隻有兩個點的時候的計算的方差和均值:
這裡寫圖片描述
綠色是真實情況,藍色是樣本點。可以看出樣本數量較少的情況得到的結果不太好,但是如果樣本數量很大,其偏差就可以忽略不計了。但是引數越多的時候其偏差就會越明顯。

6 重回多項式擬合

這次從概率的角度重新審視誤差函式和規則化的含義,另外感受下beyas方案。
之前我們想要通過現有的x和t,來預測新的x對應的t,之前並沒有給出預測的不確定程度,現在通過beyas方法來計算。
假設我們的預測函式是以y為均值的高斯分佈函式,如下圖所示:
這裡寫圖片描述
其中的β=1/σ2.也就是新的預測值的概率密度為:
這裡寫圖片描述
這樣就表徵出了預測值的不確定性。
其似然函式為:
這裡寫圖片描述
利用最大似然函式就可以求出w和β注意這裡依然由於他們二者不會由於比賽改變自己的極值所以可以分別求出。

6.1理解誤差函式

在求的過程中可以發現,最小二乘法就是其求解的一種特殊情況。

在如果求出兩者,那麼我們就有一個預測模型了,這樣代入即可求出預測值的分佈(之前的擬合只能到處一個數值)。

6.2 理解規則化

我們進一步利用beyas概論,還記得下面的圖片麼?
這裡寫圖片描述
這裡可以寫成下式:
這裡寫圖片描述
如果我們考慮w的先驗分佈,那麼其後驗分佈應該滿足上式,這時候的w應該使後驗概率最大化,This technique is called maximum posterior, or simply MAP.其求解結果是:
這裡寫圖片描述
總是那麼神奇,可以看出這樣的形式類似於有懲罰項的最小二乘法的代價函式。
其中w的先驗概率的條件變數α/β可以看成懲罰因子。
從這裡可以看出概率派和頻率派只是一個問題的不同解決方式,並沒有絕對的誰對誰錯。

7 貝葉斯曲線擬合

上面雖然得到了預測值的不確定性,但是並不是完整的貝葉斯的方法,因為我們的引數的不確定性還沒有給出。
擬合問題中我們是要求在知道已知向量x,t及新的向量數值x時預測一個新的t,他可以用下式表示:
這裡寫圖片描述
其中左邊是我們剛才說想要求的,右邊整體是用了sum rule 在連續變數中就是求邊緣密度,中間裡面的乘法用的是product rule。
其中的p(t|x,w)為在引數為W的條件下,對應x的預測值為t的概率,也就是前面的方程:這裡寫圖片描述為了簡便起見,沒有標記alpha和beta。
p(w|x,t)為在輸入為x,t條件下引數為w的概率。他們的乘積就是引數為w輸入為x,t時的概率。
要注意,這裡我們並不是把引數設為固定值,因此如果想得到最終的p(t|x,x,t)必須要利用sum rule 將其求積分,求解方法暫時沒有詳細列出,結果如下:
這裡寫圖片描述
這裡寫圖片描述
其中
這裡寫圖片描述
這裡寫圖片描述
注意這裡的s2包含兩項,第一項是前面已經用似然函式得到的由於目標函式的噪聲產生的β1,而第二項是由w的不確定產生的。
其擬合結果如下:
這裡寫圖片描述
這裡只是講解了beyas方法求解擬合問題的一般過程,其具體求解步驟還沒有詳細敘述,後面應該會有講解。