樸素貝葉斯案例1：進行文件/評論分類（python實現）

阿新 • • 發佈：2019-01-18

機器學習的一個重要應用就是文件的自動分類，比如一封電子郵件、新聞報道、使用者留言、政府公文等。在文件分類中，比如一封電子郵件就是一個例項，而電子郵件中的某些元素（詞語）則構成特徵。我們可以觀測文件中出現的詞，並把每個詞的出現或者不出現作為一個特徵，這樣得到的特徵數目就會跟詞彙表中的詞目一樣多。

樸素貝葉斯是比較常用的演算法，樸素的含義是假設特徵之間相互獨立，為啥需要這個假設呢？

假設詞彙表中有1000個單詞，要得到好的概率分佈，就需要足夠的資料樣本，假設每個特徵需要N個樣本，那麼對於1000特徵的詞彙，則需要N的1000次冪。隨著特徵數目增大樣本數會迅速增長。但如果假設特徵之間相互獨立，則樣本數可以由N的1000次冪減少到1000*N個。

所謂的獨立指的是統計意義上的獨立，即一個特徵或者單次出現的可能性與它和其他單詞相鄰沒有關係。比如，單詞bacon出現在unhealthy和出現在delicious後面的概率相等，當然這個假設並不正確，兩者肯定不相等，這個假設正是樸素貝葉斯中的樸素的概念。樸素貝葉斯的另外一個假設是每個特徵同等重要。其實這個假設也有問題，如果要判斷留言板的留言是否恰當，可能並不需要看完所有的1000個單詞，而只需要看10-20個單詞（特徵）即可做出判斷。

儘管樸素貝葉斯有這些小瑕疵，但是實際的效果仍然很好。

案例：

以斑點狗論壇留言板為例，需要構建一個快速過濾器，遮蔽一些侮辱性的言論。對此類問題需要建立兩個類別，侮辱和非侮辱類，使用1和0分別表示。

1、將文字轉化為數字向量

要從文字中獲取特徵，需要先拆分文字。將文字片段表示為一個詞條向量，其中值1表示詞條出現在文件中，0表示詞條未出現。

1）匯入資料

640?wx_fmt=png&wxfrom=5&wx_lazy=1

2）建立一個包含在所有文件中不重複的詞彙表

0?wx_fmt=png

執行案例如下：

0?wx_fmt=png

3）獲取詞彙表之後，就可以根據詞彙表以及樣本文件，輸出樣本的數字向量。

向量的每一個元素為0或者1，分別表示詞彙表中的單詞是否在輸入文件中出現。

0?wx_fmt=png

案例結果：

0?wx_fmt=png

將訓練文字全部轉為數字向量。

向量的每個元素0，或1 代表評論中的詞是否在詞彙表中出現，向量的長度為詞彙表的長度。

0?wx_fmt=png

2、訓練演算法，從詞向量計算概率。

貝葉斯公式：p(h+|D)=p(D|h+)*p(h+)/P(D), h+代表侮辱性留言，

程式思路：

計算每個類別彙總的文件數目

對每篇訓練文件：

對每個類別：

如果詞條出現在文件中，則增加該詞條的計數值

增加所有詞條的計數值

對每個詞條：
將該詞條的數目除以總詞條數目得到條件概率
返回每個類別的條件概率

0?wx_fmt=png

執行案例：

0?wx_fmt=png

3、根據樸素貝葉斯進行分類。

下面就是分別求出P(h+|D)、P(h-|D)，然後根據兩者的大小，取值大的類別做決策。

P(h+|D) = P(D|h+) *P(h+) / P(D) = (P(d1 | h+)*P(d2 | h+)*...P(dn | h+))*P(h+) / P(D)

P(h-|D) = P(D|h-) *P(h-) / P(D) = (P(d1 | h-)*P(d2 | h-)*...P(dn | h-))*P(h-) / P(D)

在計算P(d1 | h+)*P(d2 | h+)*...P(dn | h+)時，假設有一個P(di | h+)=0，那麼這個式子的乘積也會0，為降低這種影響，可將素有詞的出現數均初始化為1，將分母初始化為2

另外一個問題是下溢位，這是由於太多很小的數相乘，四捨五入會得到0，此時的解決辦法是對乘積取自然對數。主要參考是因為ln(a*b)=ln(a)+ln(b)，因為為f(x)和ln(f(x))的曲線變化趨勢一致。雖然取值不一樣，但不影響我們的判斷。

0?wx_fmt=png

測試案例：

0?wx_fmt=png

樸素貝葉斯案例1：進行文件/評論分類（python實現）

樸素貝葉斯案例1：進行文件/評論分類（python實現）

樸素貝葉斯(NaiveBayes)針對小資料集中文文字分類預測

基於樸素貝葉斯的關於網際網路金融新聞分類（python實現）

統計學習四：1.樸素貝葉斯

樸素貝葉斯分類算法介紹及python代碼實現案例

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

機器學習：貝葉斯分類器（二）——高斯樸素貝葉斯分類器代碼實現

分類：樸素貝葉斯分類方法

學習筆記（七）：樸素貝葉斯在Web安全中的六個應用

機器學習筆記（五）：樸素貝葉斯分類器

大資料之Spark（七）--- Spark機器學習，樸素貝葉斯，酒水評估和分類案例學習，垃圾郵件過濾學習案例，電商商品推薦，電影推薦學習案例

樸素貝葉斯（二：實戰）

《機器學習實戰》筆記（三）：樸素貝葉斯

貝葉斯分類器：樸素、半樸素貝葉斯

樸素貝葉斯應用：垃圾郵件分類

樸素貝葉斯應用：垃圾郵件分類(更新)

第十二次作業——樸素貝葉斯應用：垃圾郵件分類

【python和機器學習入門3】樸素貝葉斯1——過濾惡意留言

機器學習2：Naive Bayes（樸素貝葉斯）

機器學習(3):基於概率論的分類方法：樸素貝葉斯

樸素貝葉斯案例1：進行文件/評論分類（python實現）

相關推薦