郵件分類和過濾-樸素貝葉斯NB經典案例

阿新 • • 發佈：2019-01-01

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

關於樸素貝葉斯的理論，已在機器學習之樸素貝葉斯分類器中進行了詳細說明，但是沒有經歷coding親自見證效果，還是無法真正掌握。

本篇旨在理論的基礎上靈活運用樸素貝葉斯進行分類。

再來回顧下樸素貝葉斯分類器的思想、演算法流程，順道把用到的Python函式羅列出來。

演算法思想

比如我們想判斷一個郵件是不是垃圾郵件，那麼我們知道的是這個郵件中的詞的分佈，那麼我們還要知道：垃圾郵件中某些詞的出現是多少，就可以利用貝葉斯定理得到。

樸素貝葉斯最常見的分類應用是對文件進行分類，因此，最常見的特徵條件是文件中，出現詞彙的情況，通常將詞彙出現的特徵條件用詞向量 表示，由多個數值組成，數值的個數和訓練樣本集中的詞彙表個數相同。

樸素貝葉斯分類器中的一個假設是：每個特徵同等重要，每個屬性歸屬於此類的概率獨立於其餘所有屬性。

演算法流程

1.資料準備：（收集資料+處理資料+提取資料特徵）將資料預處理為數值型或者布林型，如對文字分類，需要將文字解析為詞向量。

2.訓練資料：根據訓練樣本集計算詞項出現的概率，訓練資料後得到各類下詞彙出現概率的向量。
3. 測試資料：評估對於測試資料集的預測精度作為預測正確率。

4.合併程式碼：使用所有程式碼呈現一個完整的、獨立的樸素貝葉斯演算法的實現。

使用樸素貝葉斯過濾垃圾郵件

資料夾spam和ham中各有25封txt文件形式的郵件正文，兩個資料夾分別分類為1和0，如開啟ham中2.txt檔案，其內容為：

Yay to you both doing fine!

I'm working on an MBA in Design Strategy at CCA (top art school.) It's a new program focusing on more of a right-brained creative and strategic approach to management. I'm an 1/8 of the way done today!

函式

loadDataSet()

建立資料集，這裡的資料集是已經拆分好的單片語成的句子。

createVocabList(dataSet)

找出這些句子中總共有多少單詞，以確定我們詞向量的大小。

setOfWords2Vec(vocabList, inputSet)

將句子根據其中的單詞轉成向量，這裡用的是伯努利模型，即只考慮這個單詞是否存在。

bagOfWords2VecMN(vocabList, inputSet)

這個是將句子轉成向量的另一種模型，多項式模型，考慮某個詞的出現次數。

trainNB0(trainMatrix,trainCatergory)

計算P(i)和P(w[i]|C[1])和P(w[i]|C[0])，這裡有兩個技巧，一個是開始的分子分母沒有全部初始化為0是為了防止其中一個的概率為0導致整體為0，另一個是後面乘用對數防止因為精度問題結果為0

classifyNB(vec2Classify, p0Vec, p1Vec, pClass1)

根據貝葉斯公式計算這個向量屬於兩個集合中哪個的概率高。

利用以上文件，進行樸素貝葉斯分類演算法訓練和測試：

1 對郵件的文字劃分成詞彙，長度小於2的預設為不是詞彙，過濾掉即可。返回一串小寫的拆分後的郵件資訊。

def textParse(bigString):    #input is big string, #output is word list
    import re
    listOfTokens = re.split(r'\W*', bigString)    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

2 文件詞袋模型：使用陣列代替集合資料結構，可以儲存詞彙頻率資訊。

def bagOfWords2VecMN(vocabList, inputSet):
returnVec = [0]*len(vocabList)
for word in inputSet:
if word in vocabList:
returnVec[vocabList.index(word)] += 1
return returnVec

3 輸入為25封正常郵件和25封垃圾郵件。50封郵件中隨機選取10封作為測試樣本，剩餘40封作為訓練樣本。

　　　訓練模型：40封訓練樣本，訓練出先驗概率和條件概率；

　　　測試模型：遍歷10個測試樣本，計算垃圾郵件分類的正確率。

def spamTest():
docList=[]; classList = []; fullText =[]
for i in range(1,26):
wordList = textParse(open('email/spam/%d.txt' % i).read())
# print wordList
docList.append(wordList)
fullText.extend(wordList)
classList.append(1)
wordList = textParse(open('email/ham/%d.txt' % i).read())
docList.append(wordList)
fullText.extend(wordList)
classList.append(0)
vocabList = createVocabList(docList)#create vocabulary
trainingSet = range(50); testSet=[] #create test set
for i in range(10):
randIndex = int(random.uniform(0,len(trainingSet)))
testSet.append(trainingSet[randIndex])
del(trainingSet[randIndex])
trainMat=[]; trainClasses = []
for docIndex in trainingSet:#train the classifier (get probs) trainNB0
trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
trainClasses.append(classList[docIndex])
p0V,p1V,pSpam = trainNB0(array(trainMat),array(trainClasses))
errorCount = 0
for docIndex in testSet: #classify the remaining items
wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
if classifyNB(array(wordVector),p0V,p1V,pSpam) != classList[docIndex]:
errorCount += 1
print "classification error",docList[docIndex]
print 'the error rate is: ',float(errorCount)/len(testSet)
#return vocabList,fullText

近期熱文

... ...

遲做總比不做好；晚來總比不來強。

更多幹貨內容請關注微信公眾號“AI 深入淺出”

長按二維碼關注

郵件分類和過濾-樸素貝葉斯NB經典案例

關於樸素貝葉斯的理論，已在機器學習之樸素貝葉斯分類器中進行了詳細說明，但是沒有經歷coding親

分類演算法：樸素貝葉斯NB

演算法原理設x={a1,a2,a3,...,am}為一個待分類項，aj為x的一個特徵屬性。 c={y1,y2,...,yn}為類別的集合那麼計算x所屬的類別就是計算：已知x，求P(yi|x)。哪一種類別yi使P(yi|x)最大，x就屬

基於邏輯迴歸/決策樹/隨機森林/多層感知分類器/xgboost/樸素貝葉斯分類的資訊多分類效能對比

在上一篇（https://blog.csdn.net/baymax_007/article/details/82748544）中，利用邏輯迴歸實現資訊多分類。本文在之前基礎上，又引入決策樹、隨機森林、多層感知分類器、xgboost和樸素貝葉斯分類演算法，並對驗證集和測試集分類

《機器學習西瓜書》學習筆記——第七章_貝葉斯分類器_樸素貝葉斯分類器

樸素：特徵條件獨立；貝葉斯：基於貝葉斯定理。樸素貝葉斯是經典的機器學習演算法之一，也基於概率論的分類演算法，屬於監督學習的生成模型。樸素貝葉斯原理簡單，也很容易實現，多用於文字分類，比如垃圾郵件過濾。 1.演算法思想——基於概率的預測貝葉斯決策論是概率框架下

機器學習(3):基於概率論的分類方法：樸素貝葉斯

概述優點：在資料較少的情況下仍然有效，可以處理多類別問題。缺點：對於輸入資料的準備方式較為敏感。使用資料型別：標稱型資料。貝葉斯決策理論的核心思想：選擇具有最高概率的決策。使用條件概率來分類對於某個資料點x,y：如果，那麼屬於類別如果，那麼屬於類

分類演算法之樸素貝葉斯分類

原文http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html 0、寫在前面的話我個人一直很喜歡演算法一類的東西，在我看

機器學習實戰——基於概率論的分類方法：樸素貝葉斯（二）

使用貝葉斯過濾垃圾郵件 1.準備資料：切分文字將字串切分為詞列表時，倘若沒有split引數，則標點符號也會被當成詞的一部分，可以使用正則表示式來切分句子，其中分隔符是除了單詞，數字之外的任意字串

【機器學習實戰—第4章：基於概率論的分類方法：樸素貝葉斯】程式碼報錯（python3）

1、報錯：UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xae in position 199: illegal multibyte sequence 原因：這是檔案編碼的問題，檔案中有非法的多位元組字元。解決辦法：開啟Ch04\

機器學習：貝葉斯分類器，樸素貝葉斯，拉普拉斯平滑

數學基礎：數學基礎是貝葉斯決策論Bayesian DecisionTheory,和傳統統計學概率定義不同。頻率學派認為頻率是是自然屬性，客觀存在的。貝葉斯學派，從觀察這出發，事物的客觀隨機性只是觀察者不知道結果，也就是觀察者的知識不完備，對於知情者而言，事物沒有隨機性，隨機

第4章基於概率論的分類方法：樸素貝葉斯

樸素貝葉斯概述貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。本章首先介紹貝葉斯分類演算法的基礎——貝葉斯定理。最後，我們通過例項來討論貝葉斯分類的中最簡單的一種: 樸素貝葉斯分類。貝葉斯理論 & 條件概率貝葉斯理論

機器學習分類演算法之樸素貝葉斯

一、概念樸素貝葉斯模型（Naive Bayesian Model，NBM）是以條件概率為基礎的分類器，是一種監督演算法，常被用於文字分類和垃圾郵件過濾。貝葉斯理論解決的是逆向概率問題，即通過已經發生的已知的概率來推測未發生的事將會發生的概率。二、計算樸素貝葉斯各個事件發

機器學習之樸素貝葉斯(NB)分類演算法與Python實現

樸素貝葉斯（Naive Bayesian）是最為廣泛使用的分類方法，它以概率論為基礎，是基於貝葉斯定理和特徵條件獨立假設的分類方法。一、概述 1.1 簡介樸素貝葉斯（Naive Bayesian）是基於貝葉斯定理和特徵條件獨立假

分類演算法：樸素貝葉斯演算法

一、問題的提出使用Wikipedia上的一個例子： “一所學校裡面有 60% 的男生，40% 的女生。男生總是穿長褲，女生則一半穿長褲一半穿裙子。有了這些資訊之後我們可以容易地計算“隨機選取一個學生，他（她）穿長褲的概率和穿裙子的概率是多大”，這個就是前面說的“正向概率”

機器學習之分類器——Matlab中各種分類器的使用總結（隨機森林、支援向量機、K近鄰分類器、樸素貝葉斯等）

Matlab中常用的分類器有隨機森林分類器、支援向量機（SVM）、K近鄰分類器、樸素貝葉斯、整合學習方法和鑑別分析分類器等。各分類器的相關Matlab函式使用方法如下：首先對以下介紹中所用到的一些變數做統一的說明： train_data——訓練樣本，矩陣的每

機器學習-分類演算法之樸素貝葉斯

條件概率公式:P(A|B) = P(AB)/P(B) 貝葉斯定理:P(A|B) = P(B|A)P(A)/P(B) 樸素貝葉斯演算法思想:給定一個待分類的資料 X={a1,a2,……,aN},即N個特徵項，目標分類集合Y={y1,y2,……,yK}，即有K個分類通過計算P

基於概率論的分類方法：樸素貝葉斯

需要分類器做出分類決策，可以使分類器給出各個類別的概率估計值，然後選擇概率最高的作為其的類別。在這裡使用到了概率論中的貝葉斯公式：P(A|B)=P(A)*P(B|A)/P(B)，其中P(A|B)是後驗概率，P(A)是先驗概率，P(B|A)/P(B)為調整因子（在已知結果的情況

文字分類（TFIDF/樸素貝葉斯分類器/TextRNN/TextCNN/TextRCNN/FastText/HAN）

目錄簡介 TFIDF 樸素貝葉斯分類器貝葉斯公式貝葉斯決策論的理解極大似然估計樸素貝葉斯分類器 TextRNN

機器學習實戰（三）樸素貝葉斯NB（Naive Bayes）

目錄 0. 前言 1. 條件概率 2. 樸素貝葉斯（Naive Bayes） 3. 樸素貝葉斯應用於文字分類 4. 實戰案例 4.1. 垃圾郵件分類案例學習完機器學習實戰的樸素貝葉斯，簡單的做個筆記。文中

Python實現樸素貝葉斯(NB)

這篇文章主要關於樸素貝葉斯演算法的用python具體實現，網上關於NB演算法的文章很多，大多圍繞著《機器學習實戰》這本書來著。在此，對於NB演算法的原理我大概介紹一下。貝葉斯定理：已知某條件概率，如何得到兩個條件交換後的概率。即：已知求假設

大資料之Spark（七）--- Spark機器學習，樸素貝葉斯，酒水評估和分類案例學習，垃圾郵件過濾學習案例，電商商品推薦，電影推薦學習案例

一、Saprk機器學習介紹 ------------------------------------------------------------------ 1.監督學習 a.有訓練資料集,符合規範的資料 b.根據資料集，產生一個推斷函式

郵件分類和過濾-樸素貝葉斯NB經典案例

演算法思想

演算法流程

函式

將句子根據其中的單詞轉成向量，這裡用的是伯努利模型，即只考慮這個單詞是否存在。

這個是將句子轉成向量的另一種模型，多項式模型，考慮某個詞的出現次數。

計算P(i)和P(w[i]|C[1])和P(w[i]|C[0])，這裡有兩個技巧，一個是開始的分子分母沒有全部初始化為0是為了防止其中一個的概率為0導致整體為0，另一個是後面乘用對數防止因為精度問題結果為0

根據貝葉斯公式計算這個向量屬於兩個集合中哪個的概率高。

相關推薦