1. 程式人生 > >周志華 《機器學習》之 第七章(貝葉斯分類器)概念總結

周志華 《機器學習》之 第七章(貝葉斯分類器)概念總結

貝葉斯分類器是利用概率的知識完成資料的分類任務,在機器學習中使用貝葉斯決策論實施決策的基本方法也是在概率的框架下進行的,它是考慮如何基於這些概率和誤判損失來選擇最優的類別標記。

1、貝葉斯決策論

假設有N種可能的類別標記,Y={c1,c2,c3,...,cN},λij 是將一個真實標記為cj的樣本誤分類為ci所產生的損失。基於後驗概率P(ci|x)可獲得獎樣本x分類為ci所產生的期望損失,即在樣本x上的“條件風險”。

R(ci|x)=j=1NλijP(cj|x)
機器學習的過程就是要尋找一個判定準則:h:XY以最小化總體風險。
為最小化總體風險,只需要在每個樣本上選擇哪個能使條件分析最小的類別標記。 h
(x)=argminR(c|x)(cY)
此時,h稱為貝葉斯最優分類器,與之對應的總體風險R(h)稱為貝葉斯風險。則1R(h)反映了分類器所能達到的最好效能。
生成式模型 如:貝葉斯分類器
判別式模型 如:決策樹、BP神經網路、支援向量機

2、極大擬然估計

概率模型的訓練過程就是引數估計過程,
本文中採用極大擬然估計就是試圖在所有的可能的取值中,找到一個能使資料出現的“可能性”的最大值。

3、樸素貝葉斯分類器

樸素貝葉斯分類器 基於貝葉斯公式來估計後驗概率P(c|x) 的主要困難在於求類條件概率P(x|c) 是所有屬性上的聯合概率,難以從有限的訓練樣本直接估計得到。為了解決這個問題,提出樸素貝葉斯分類器

它採用了“屬性條件獨立假設”對已知類別,假設所有屬性相互獨立,換言之,假設每個屬性獨立地對分類結果發生影響。

4、半樸素貝葉斯分類器

為了降低貝葉斯公式中估計後驗概率的困難,提出使用樸素貝葉斯分類器採用屬性條件獨立性假設,然而在現實任務中這個假設很難成立,因此就提出半樸素貝葉斯分類器,它的基本思想是適當考慮一部分屬性間的相互依賴資訊,從而既不需要完全聯合概率計算,又不至於徹底忽略了比較強的屬性依賴關係。

5、貝葉斯網

貝葉斯網是藉助有向無環圖(DAG)來刻畫屬性之間的依賴關係,並使用條件概率表(CPT)來描述屬性的聯合概率分佈
結構
學習
推斷

6、EM演算法

如果訓練樣本的屬性“不完整”,因此在這種存在“未觀測”變數(隱變數)的情形下,如何進行模型引數估計呢?EM演算法就是常用的估計引數隱變數的利器。
EM 演算法

簡單來說,使用兩個步驟交替計算:一是期望(E)步,利用當前估計的引數值來計算對數似然的期望值;二是最大化(M)步,尋找能使E步產生的似然期望最大化的引數值。然後,新得到的引數值重新被用於E步,……直至收斂到區域性最優解。