【python與機器學習入門3】樸素貝葉斯2——垃圾郵件分類

阿新 • • 發佈：2018-12-12

參考部落格：樸素貝葉斯基礎篇之言論過濾器（po主Jack-Cui,《——大部分內容轉載自

參考書籍：《機器學習實戰》——第四章4.6

樸素貝葉斯基礎內容見前篇《——

1 資料集

ham資料夾正常郵件

spam資料夾垃圾郵件

2 資料處理

3 訓練

4 測試

#!/usr/bin/env python
#_*_coding:utf-8_*_
from numpy import *
import re
'''
    文字分類-過濾垃圾郵件
'''


'''切分文字'''
def textParse(bigString):
    listOfTokens = re.split(r'\W*',bigString)
    return [tok.lower() for tok in listOfTokens if len(tok)>2]


'''建立詞彙表'''
def createVocablist(dataset):
    vocabList = set([])
    for data in dataset:
        vocabList = vocabList | set(data)
    return list(vocabList)

'''詞彙轉向量'''
def setOfWord2Vec(vocabList,dataset):
    returnVec = [0] * len(vocabList)
    for word in dataset:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1 #單詞出現標1
        else:
            print "sorry this word %s is not in our vocablist" % word
    return  returnVec


'''計算p(wi|ci)
   該類下，該單詞出現的概率
   需要計算每一類每個單詞出現的次數（分子） 和 每一類出現過的總單詞數（分母）
'''
def trainNB(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pSpam = float(sum(trainCategory)) / float(numTrainDocs)
    p1Num = ones(numWords)
    p0Num = ones(numWords) #記錄每個單詞在該類出現的次數，是一個向量
    p1Denom = 2.0
    p0Denom = 2.0 #屬於該類的總單詞出現次數,是一個數
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vec = log(p1Num / p1Denom)
    p0Vec = log(p0Num / p0Denom)
    return p0Vec,p1Vec,pSpam

'''計算文件屬於某個類別i的概率：p = p(w0|ci)p(w1|ci)p(w2|ci)~p(wn|ci)*p（ci）以下是二分類'''
def classifyNB(vec2classify,p0vec,p1vec,pclass1):
    p1 = sum(vec2classify * p1vec) + log(pclass1)
    p0 = sum(vec2classify * p0vec) + log(1 - pclass1)
    if p1 > p0:
        #print "p1=%f" % p1
        return 1
    else:
        #print "p0=%f" % p0
        return 0


'''
    
    random.uniform(a, b)，用於生成一個指定範圍內的隨機符點數
'''

def spamTest():
    classList = [] ; docList = []
    '''匯入檔案共50個'''
    for i in range(1,26):
        wordList = textParse(open('email/spam/%d.txt' % i,'r').read())
        classList.append(1)
        docList.append(wordList)
        wordList = textParse(open('email/ham/%d.txt' % i, 'r').read())
        classList.append(0)
        docList.append(wordList)
    '''建立詞彙表'''
    vocabList = createVocablist(docList)
    #print len(vocabList)
    #print vocabList
    trainSetIndex = range(50)
    testSetIndex = []
    #print docList
    '''劃分訓練集和測試集 取10個測試集 40個訓練集'''
    for i in range(10):
        randIndex = int(random.uniform(0,len(trainSetIndex)))
        testSetIndex.append(trainSetIndex[randIndex])#避免重複
        #print  trainSetIndex[randIndex]
        del(trainSetIndex[randIndex])
    numTrainDoc = len(trainSetIndex)
    numTestDoc = len(testSetIndex)
    trainMat = [];  testMat = [];
    trainClass = []; testClass = [];
    '''訓練集資料向量化 資料集標籤'''
    for i in range(numTrainDoc):
        trainMat.append(setOfWord2Vec(vocabList,docList[trainSetIndex[i]]))
        trainClass.append(classList[trainSetIndex[i]])
    p0Vec, p1Vec, pSpam = trainNB(trainMat,trainClass)
    errorCount = 0.0
    '''測試集資料向量化 資料集標籤 進行測試'''
    for i in range(numTestDoc):
        testMat = setOfWord2Vec(vocabList,docList[testSetIndex[i]])
        testClass = classList[testSetIndex[i]]
        classResult = classifyNB(testMat,p0Vec,p1Vec,pSpam)
        if classResult != testClass:
            print "classify wrong：origin %d" % testClass
            errorCount += 1
    print "error rate = %.2f" % (errorCount / numTestDoc)



if __name__ == '__main__':
   spamTest()

【python與機器學習入門3】樸素貝葉斯2——垃圾郵件分類

參考部落格：樸素貝葉斯基礎篇之言論過濾器（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第四章4.6

【python和機器學習入門3】樸素貝葉斯1——過濾惡意留言

參考部落格：（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第四章4.5 一樸素貝葉斯理論二 demo：過濾網站惡意留言以線上社群留言為例。為了不影響社群的發展，我們要遮蔽侮辱性的言論，所以要構建一個快速過濾器，如果某

Python與機器學習（五）樸素貝葉斯分類

1.安裝中文分詞器由於本文是對中文文字進行分類，故需要用到中文分詞器，而結巴分詞則是Python支援較好的一款分詞器。使用命令安裝： pip3 install jieba3k 或者下載結巴分詞檔案【下載】結巴分詞測試：結巴分詞支援三種分詞模式：精確模式，也是結巴

機器學習-資料分析之樸素貝葉斯過濾垃圾郵件

資料分析之過濾垃圾郵件前沿之前也學了一些資料分析的案例從一直沒有記錄，所有準備從現在開始把所學的都記錄在CSDN中。如果大家看到我的博文有什麼不理解或者還想學習更深入的可以去上面的網站。樸素貝葉斯之過濾垃圾郵件使用樸素貝葉斯解決一些生活中的問題。先從文字內容得

【python與機器學習入門1】KNN（k近鄰）演算法2 手寫識別系統

參考部落格：超詳細的機器學習python入門knn乾貨（po主Jack-Cui 參考書籍：《機器學習實戰》——第二章 KNN入門第二彈——手寫識別系統demo ——《機器學習實戰》第二章2.3 手寫識別系統 &

用Python開始機器學習（6：樸素貝葉斯分類器）

樸素貝葉斯分類器是一個以貝葉斯定理為基礎，廣泛應用於情感分類領域的優美分類器。本文我們嘗試使用該分類器來解決上一篇文章中影評態度分類。1、貝葉斯定理假設對於某個資料集，隨機變數C表示樣本為C類的概率，F1表示測試樣本某特徵出現的概率，套用基本貝葉斯公式，則如下所示：上式表示對

Python實現基於樸素貝葉斯的垃圾郵件分類

聽說樸素貝葉斯在垃圾郵件分類的應用中效果很好，尋思樸素貝葉斯容易實現，就用python寫了一個樸素貝葉斯模型下的垃圾郵件分類。在400封郵件（正常郵件與垃圾郵件各一半）的測試集中測試結果為分類準確率95.15%，在僅僅統計詞頻計算概率的情況下，分類結果還是相當不

《機器學習實戰》基於樸素貝葉斯分類演算法構建文字分類器的Python實現

Python程式碼實現：#encoding:utf-8 from numpy import * #詞表到向量的轉換函式 def loadDataSet(): postingList = [['my','dog','has','flea','problems','help','please'],

用Python Scikit-learn 實現機器學習十大演算法--樸素貝葉斯演算法（文末有程式碼）

1，前言很久不發文章，主要是Copy別人的總感覺有些不爽，所以整理些乾貨，希望相互學習吧。不囉嗦，進入主題吧，本文主要時說的為樸素貝葉斯分類演算法。與邏輯迴歸，決策樹一樣，是較為廣泛使用的有監督分類演算法，簡單且易於理解（號稱十大資料探勘演算法中最簡單的演算法）。但

（筆記）斯坦福機器學習第六講--樸素貝葉斯

span || -h 沒有 height 單純去除變量 logistic 本講內容 1. Naive Bayes（樸素貝葉斯） 2.Event models（樸素貝葉斯的事件模型） 3.Neural network （神經網絡） 4.Support vector mac

sklearn的機器學習之路：樸素貝葉斯

1. 基礎概念什麼是樸素貝葉斯：貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單，也是常見的一種分類方法。貝葉斯公式

機器學習實戰筆記4(樸素貝葉斯)

前面介紹的kNN和決策樹都給出了“該資料例項屬於哪一類”這類問題的明確答案，而有時候的分類並不能給出明確的答案，本節講解使用概率論進行分類的方法。 1：簡單概念描述概念比較簡單，這裡我摘抄自百度百科，很容易理解。樸素貝葉斯模型(NaiveBayesian classif

機器學習筆記－－樸素貝葉斯 &三種模型＆sklearn應用

樸素貝葉斯 Naive Bayes 貝葉斯定理根據條件概率公式：在B條件下A發生的概率： P(A∣B)=P(AB)P(B) 在A條件下B發生的概率： P(B∣A)=P(AB)P(A) 則 P(A∣B)P(B)=P(AB)=P(B∣A)P(A)

機器學習經典演算法之樸素貝葉斯分類

很多人都聽說過貝葉斯原理，在哪聽說過？基本上是在學概率統計的時候知道的。有些人可能會說，我記不住這些概率論的公式，沒關係，我儘量用通俗易懂的語言進行講解。 /*請尊重作者勞動成果，轉載請標明原文連結：*/ /* https://www.cnblogs.com/jpcflyer/p/11069659

python實現貝葉斯推斷——垃圾郵件分類

理論前期準備資料來源資料來源於《機器學習實戰》中的第四章樸素貝葉斯分類器的實驗資料。資料書上只提供了50條資料（25條正常郵件，25條垃圾郵件），感覺資料量偏小，以後打算使用scikit-learn提供的iris資料。資料準備和很

【python和機器學習入門2】決策樹3——使用決策樹預測隱形眼鏡型別

參考部落格：決策樹實戰篇之為自己配個隱形眼鏡（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第三章3.4

【python和機器學習入門2】決策樹2——決策樹構建

參考部落格：決策樹實戰篇之為自己配個隱形眼鏡（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第三章

【機器學習實戰】樸素貝葉斯

一.概述二.理論基礎三.文件分類四.垃圾郵件過濾五.從個人廣告中獲取區域傾向六.程式碼問題總結七.總結一、概述貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。本章首先介紹貝葉斯分類演算法的基礎——

【ML學習筆記】樸素貝葉斯演算法的demo（機器學習實戰例子）

礙於這學期課程的緊迫，現在需要儘快從課本上掌握一些ML演算法，我本不想經過danger zone，現在看來卻只能儘快進入danger zone，數學理論上的缺陷只能後面找時間彌補了。如果你在讀這篇文章，希望你不要走像我一樣的道路，此舉實在是出於無奈，儘量不要去做一個心

【機器學習】使用樸素貝葉斯進行文件分類

樸素貝葉斯的一般過程： 1、收集資料：任何方法 2、準備資料：需要數值型或者布林型資料 3、分析資料：有大量特徵時，繪製特徵作用不大，此時使用直方圖效果更好 4、訓練演算法：計算不同的獨立特徵的條件概率 5、測試演算法：計算錯誤率 6、使用演算法：常見的樸素貝葉斯應用是

【python與機器學習入門3】樸素貝葉斯2——垃圾郵件分類

1 資料集

2 資料處理

3 訓練

4 測試

相關推薦