1. 程式人生 > >貝葉斯分類器:樸素、半樸素貝葉斯

貝葉斯分類器:樸素、半樸素貝葉斯

貝葉斯分類器在預先給定代價的情況下平均風險最小的分類器。
分類原理:通過某物件的先驗概率,利用貝葉斯公式計算出其後驗概率。

貝葉斯分類器的基礎

貝葉斯公式

P ( H X )

= P ( X H ) P
( H )
P ( X )
P(H|X)=\frac{P(X|H)P(H)}{P(X)} 其中,X表示n個屬性的測量描述;
H為某種假設,比如假設某觀察值X屬於某個特定的類別C;
P(X)則是X的先驗概率, P(H)也是先驗概率;
P(X|H)是類條件概率,也叫似然;
P(H|X)是後驗概率,即在條件X下,H的後驗概率;

對於分類問題,希望確定P(H|X),即能通過給定的X的測量描述,來得到假設H成立的概率,也就是給出X的屬性值,計算出該觀察值屬於類別C的概率。

舉個栗子,假設資料屬性僅限於用教育背景和收入來描述顧客,而X是學歷是碩士,收入10萬元的顧客。假定H表示假設我們的顧客將購買蘋果手機。

  • P(H|X)表示當我們知道顧客的教育背景和收入情況後,該顧客將購買蘋果手機的概率;
  • P(X|H)則表示如果已知顧客將購買蘋果手機,則該顧客是碩士學歷並且收入10萬元的概率;
  • P(X)則是X的先驗概率,表示顧客中的某個人屬於碩士學歷且收入10萬元的概率;
  • P(H)也是先驗概率,只不過是任意給定顧客將購買蘋果手機的概率,而不會去管他們的教育背景和收入情況。

模型表示

對每個樣本 x x 選擇能使後驗概率 P ( c x ) P(c|x) 最大的類別標記:
(1) h ( x ) = a r g max c Y P ( c x ) = a r g max c Y P ( x c ) P ( c ) P ( x ) h^*(x)=arg\max_{c\in \mathcal Y} P(c|x)=arg\max_{c\in \mathcal Y} \frac{P(x|c)P(c)}{P(x)}\tag 1 即當分類器預測樣本 x x 屬於類別 c i c_i 時,當且僅當:
P ( c i x ) > P ( c j x ) , 1 j m , j i P(c_i|x)>P(c_j|x),\quad 1\le j\le m,j\ne i

樸素貝葉斯分類器

基於屬性條件獨立性假設(假設每個屬性獨立地對分類結果發生影響)
P ( x c ) = i P ( x i c ) P(x|c)=\prod_i P(x_i|c)

模型表示

在式(1)中,
P ( c x ) = P ( x c ) P ( c ) P ( x ) = P ( c ) P ( x ) i P ( x i c ) P(c|x)=\frac{P(x|c)P(c)}{P(x)}= \frac{P(c)}{P(x)}\prod_i P(x_i|c)
由於對於所有類別來說P(x)相同,所以最終樸素貝葉斯分類器的模型表示為:
h ( x ) = a r g max c Y P ( c x ) = a r g max c Y P ( c ) i P ( x i c ) h^*(x)=arg\max_{c\in \mathcal Y} P(c|x)=arg\max_{c\in \mathcal Y} P(c)\prod_i P(x_i|c)

缺點

在現實任務中屬性條件獨立性假設往往很難成立

半樸素貝葉斯分類器

對屬性條件獨立性假設進行一定程度的放鬆,適當考慮一部分屬性間的相互依賴資訊。
常用策略:獨依賴估計,假設每個屬性在類別之外最多僅依賴於一個其他屬性。
h ( x ) = a r g max c Y P ( c x ) = a r g max c Y P ( c ) i P ( x i c , p a i ) h^*(x)=arg\max_{c\in \mathcal Y} P(c|x)=arg\max_{c\in \mathcal Y} P(c)\prod_i P(x_i|c,pa_i) 其中, p a i pa_i 是屬性 x i x_i 所依賴的屬性,稱為 x i x_i 的父屬性。