貝葉斯分類器(一)
阿新 • • 發佈:2019-01-11
貝葉斯推理提供了一種概率(主要應用條件概率)學習手段,根據以往資料的概率分佈和已觀察到的資料進行推理判斷。對資料量大的問題十分適用,在雲端計算和大資料時代再次成為研究熱點。貝葉斯分類器分成兩個部分,第一部分對基礎知識、貝葉斯決策論、極大似然估計、樸素貝葉斯分類器和半樸素貝葉斯分類器進行介紹,第二部分對貝葉斯網進行詳細介紹。本文是對周志華老師的《機器學習》第七章貝葉斯分類器,進行了學習和分析,相當於一篇學習筆記,因此引用了的部分不再進行標註,在文章的最後給出了本文的參考文獻。由於作者水平有限錯誤之處在所難免,望批評指正。
0. 基本知識
為了能更好的理解貝葉斯分類器,本節首先講述有關概率的基礎知識,為後面概率的推到打下基礎。
- 加法公式
對於任意兩個事件A,B ,有P(A∪B)=P(A)+P(B)−P(A∩B)
加法公式的示例如圖0.1所示,圖0.2將AUB 分成兩兩不相容的三個事件I、II、III ,則有,
A∪B=I∪II∪III,
A=I∪II,
B=II∪III,
於是,P(A∪B)=P(I)+P(II)+P(III)=P(A)+P(B)−P(A∩B).
圖0.1 兩個事件的並事件
圖0.2A∪B 分成兩兩不相容的三個事件 - 乘法公式與條件概率
事件A,B 同時發生的概率是:
P(A∩B)=P(A)P(B|A)=P(B)P(A|B)
公式中的P(A|B) 是指在事件B 條件下事件A 發生的概率,又稱作條件概率。
圖0.3 兩個事件的交事件 - 貝葉斯法則
由P(A∪B)=P(B|A)P(A)=P(A|B)P(B) 立得,
P(B|A)=P(A|B)P(B)P(A)
在機器學習中我們通常寫為:
P(h|D)=P(D|h)P(h)P(D)
用P(h) 表示在沒有訓練資料前假設h 擁有的初始概率。P(h) 被稱為h的先驗概率。先驗概率反映了關於h是一正確假設的機會的背景知識。
機器學習中,我們關心的是P(h|D) ,即給定D時h的成立的概率,稱為h的後驗概率。 - 全概率公式
設S是實驗E的樣本空間,B1,B2,...,Bn 是E的n個兩兩不相容的時間,且有B1∪B2∪...∪Bn=S ,也就是說S劃分成n個兩兩不相容的時間:B
又若A是實驗E的任一事件,則有A=AS=A(B1∪B2∪...∪Bn)=AB1∪AB2∪...A∪Bn
其中
這樣就將A分成n個兩兩不相容的事件:AB1,AB2,...,ABn. 設P(B_{i})>0(i=1,2,…,n),就有P(A)=∑i=1nP(ABi)=∑i=1nP(A|Bi)P(Bi) 我們稱上述公式為全概率公式。
1. 貝葉斯決策論
有了第0節的基礎概率知識之後,本節開始介紹貝葉斯決策論(Bayesian decision theory)。貝葉斯決策論是概率框架下實施決策的基本方法。
設有N 種可能的類別標記,即