1. 程式人生 > >貝葉斯分類器(二)

貝葉斯分類器(二)

不同特徵獨立性假設條件下的貝葉斯分類器介紹

貝葉斯分類器(一)一節,我們簡要證明了貝葉斯分類器相較於其他判別規則具有最小誤分類概率。我們知道貝葉斯分類的關鍵包括對類先驗概率的確定以及類樣本概率密度的確定。當使用不同的方法估計類樣本概率密度時,我們基於貝葉斯分類(後驗概率最大化)所得到的分類結果也有所不同。例如,我們可以假設觀測樣本的所有特徵間均相互獨立,也可以假設部分特徵間相互依賴、部分特徵相獨立,或者我們也可以假設所有特徵間均存在依賴關係,基於不同的假設我們可以得到不同的概率密度估計,由此也產生了不同的分類結果。接下來分別介紹不同特徵依賴假設條件下的概率密度估計方法。

樸素貝葉斯模型

當我們假設觀測樣本的所有n

n維特徵間均相互獨立時,我們可以在還大程度上簡化類概率密度的估計過程,另一方面,特徵獨立性的假設能夠有效避免高維空間維災難的產生。

考慮一個多分類問題,樣本x\boldsymbol x可能的取值有i=ω1,ω2,ωCi = \omega_1, \omega_2,\cdots \omega_C共計CC類,其中樣本x\boldsymbol xnn維空間中的一個觀測樣本,x=(x1,x2xn)\boldsymbol x =(x_1, x_2 \cdots x_n)。我們對每一類分別進行後驗概率密度估計,則第ωi\omega_i

類的後驗概率可以表示為: p(ωix)p(ωi)p(xωi)p(\omega_i|\boldsymbol x) \propto p(\omega_i)p(\boldsymbol x|\omega_i)其中\propto表示公式左右兩側相差一個乘數因子,對於本式,即為p(x)p(\boldsymbol x)。當計算不同類在某一指定樣本下的後驗概率密度時,這一乘子保持不變,因此可以省略。只計算p(ωi)p(xωi)p(\omega_i)p(\boldsymbol x|\omega_i)。在此,我們重點考慮p
(xωi)p(\boldsymbol x|\omega_i)
的計算。

當假設觀測樣本nn維特徵均相互獨立時,我們有: p(xωi)=p(x1,x2xnωi)=j=1np(xjωi)p(\boldsymbol x|\omega_i) = p(x_1, x_2 \cdots x_n|\omega_i)=\prod_{j=1}^{n}p(x_j|\omega_i) 此時,對於聯合概率密度p(x1,x2xnωi)p(x_1, x_2 \cdots x_n|\omega_i)的估計被簡化為分別估計每個特徵p(xjωi)p(x_j|\omega_i)的概率密度。

貝葉斯網路模型

在介紹貝葉斯網路模型前,我們先回顧以下條件概率的鏈式計算方法: p(x1,x2xn)=p(xnx1,x2xn1)p(xn1x1,x2xn2)p(x2x1)p(x1)p(x_1, x_2\cdots x_n) = p(x_n|x_1, x_2 \cdots x_{n-1})p(x_{n-1}|x_1, x_2\cdots x_{n-2})\cdots p(x_2|x_1)p(x_1) 從上式我們可以看出,我們將x1,x2xnx_1,x_2 \cdots x_n之間的相互依賴關係轉化為分別反映每個特徵依賴關係圖。例如,x2x_2依賴於x1x_1x3x_3依賴於x1,x2x_1, x_2。在貝葉斯網路模型中,這種關係被稱為父子關係,其中,x1x_1為頂層根節點,它沒有父節點,只有子節點。xnx_n為底層子節點,它只有父節點,沒有子結點。 貝葉斯網路圖

圖源:《Statistical Pattern Recognition》 187頁 上圖展示了當n=6n=6時的特徵間依賴關係圖示。可以看出,x6x_6有5個父節點,分別為x1,x2,x3,x4,x5x_1, x_2, x_3, x_4, x_5。在上圖中,6個特徵間均假設存在相關關係,而在實際中,這麼複雜的關係或許是沒有必要的,但如果我們假設所有特徵間都相互獨立,不存在相關關係(樸素貝葉斯),則可能過於簡化,難以實現較好地分類效果。貝葉斯網路模型便是介於這二者之間,用於刻畫部分變數間的相關關係的模型。 我們對上圖特徵間相關關係進行簡化,使得: p(x6x1,x2x5)=p(x6x4,x5)p(x_6|x_1, x_2\cdots x_5) = p(x_6|x_4, x_5) 即,x6x_6特徵獨立於x1,x2,x3x_1, x_2, x_3,類似地,進行如下簡化: p(x5x1,x4)=p(x5x3)p(x4x1,x2,x3)=p(x4x1,x3)p(x3x1,x2)=p(x3)p(x_5|x_1, \cdots x_4) = p(x_5|x_3) \newline p(x_4|x_1, x_2, x_3) = p(x_4|x_1,x_3)\newline p(x_3|x_1, x_2) = p(x_3) 簡化後的貝葉斯網路結構如下: 在這裡插入圖片描述 圖(b)是對圖(a)結構略做調整,使其更為直觀。在貝葉斯網路模型的設定中,如何決策變數間是否應當新增相關關係是重點。這一問題通常可以根據專家對實際領域資料的理解進行指定,也可以基於已有的訓練資料進行學習確定,再此不一一展開。

全相關模型

全相關即認為所有特徵間均存在相關關係,例如我們可以假設每一類觀測樣本服從nn維高斯分佈,對多個類,分佈擬合多個nn維高斯分佈。此時的貝葉斯分類器也稱之為高斯分類器。 p(xωi)=N(x;μj,Σj)=1(2π)d/2Σj1/2exp{12(xμj)TΣj1(xμj)}p(\boldsymbol x|\omega_i) = N(\boldsymbol x;\boldsymbol \mu_j,\Sigma_j)\newline =\frac{1}{(2\pi)^{d/2}|\Sigma_j|^{1/2}}exp\left\{ -\frac{1}{2}(\boldsymbol x - \boldsymbol \mu_j)^T\Sigma_j^{-1}(\boldsymbol x - \boldsymbol \mu_j)\right \}