1. 程式人生 > >(三)樸素貝葉斯運用——文字分類

(三)樸素貝葉斯運用——文字分類

1、貝葉斯理論

當我們有樣本(包含特徵和類別)的時候,我們非常容易通過 p ( x ) p ( y |

x ) = p ( y ) p ( x | y )
統計得到 p(特徵|類別) .即 p (
) p ( | ) = p ( ) p ( | )
,有

(1) p ( | ) = p ( ) p ( | ) p ( )
獨立假設
特徵往往是多維的, p ( f e a t u r e s | c l a s s ) = p ( f 0 , f 1 , , f n | c ) ,這裡假設為2維,有
(2) p ( f 0 , f 1 | c ) = p ( f 1 | c , f 0 ) p ( f 0 | c )
假設特徵之間是獨立的(樸素貝葉斯的思想)
(3) p ( f 0 , f 1 | c ) = p ( f 1 | c ) p ( f 0 | c )

(4) p ( f 0 , f 1 , , f n | c ) = Π i n p ( f i | c )
貝葉斯分類器
對每個類別計算一個概率 p ( c i ) ,然後再計算所有特徵的條件概率 p ( f j | c i ) ,那麼分類的時候我們就是依據貝葉斯找一個最可能的類別:
(5) p ( c l a s s i | f 0 , f