文字處理之貝葉斯垃圾郵件分類

阿新 • • 發佈：2019-01-06

本文所講解的是如何通過Python將文字讀取,並且將每一個文字生成對應的詞向量並返回. 文章的背景是將50封郵件(包含25封正常郵件,25封垃圾郵件)通過貝葉斯演算法對其進行分類.

主要分為如下幾個部分:
①讀取所有郵件;
②建立詞彙表;
③生成沒封郵件對應的詞向量(詞集模型);
④用sklearn中的樸素貝葉斯演算法進行分類;
⑤生成效能評估報告

1.函式介紹

下面先介紹需要用到的功能函式

1.1建立詞彙表

思路:用所給的文字建立一個詞彙表;就是將用所有出現的單詞構成一個不重複的集合,即不含同一個單詞.

def createVocabList(dataSet):
    vocabSet = set([])  #create empty set
    for document in dataSet:
        vocabSet = vocabSet | set(document) #union of the two sets
    return list(vocabSet)
    
postingList=[['my', 'dog', 'dog','has']]
print createVocabList(postingList)
>> ['has', 'my', 'dog']

1.2 將所有的大寫字母轉換成小寫字母,並且去掉長度小於兩個字元的單詞

def textParse(bigString):    #input is big string, #output is word list
    import re
    listOfTokens = re.split(r'\W*', bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]
                            # 去掉長度小於兩個字元的單詞,2可以自己調節

s = 'i Love YYUU'
print textParse(s)
>> ['love', 'yyuu']

1.3將每一個文字變成一個詞向量

構建詞向量有兩種方式:第一種是用文本里面出現的單詞,同詞彙表向量進行對比,如果出現在詞彙表中,則對應位置為1,反之為0.這種方式只管有無出現,不管出現次數,稱為詞集模型(set-of-words model);另外一種就是,同時也統計出現次數,稱為詞袋模型(bag-of-words model).

def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else: print "the word: %s is not in my Vocabulary!" % word
    return returnVec

vocabulary = ['wo','do','like','what','go']
text = ['do','go','what','do']
print setOfWords2Vec(vocabulary,text)
>> [0, 1, 0, 1, 1]

def bagOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
        else: print "the word: %s is not in my Vocabulary!" % word
    return returnVec

vocabulary = ['wo','do','like','what','go']
text = ['do','go','what','do']
print setOfWords2Vec(vocabulary,text)
>> [0, 2, 0, 1, 1]

2.整合函式

將上面三個函式寫在一起;下面的操作方式只是針對本例,但是隻要稍作修改同樣能夠適應其它地方.

def createVocabList(dataSet):# 建立詞彙表
    vocabSet = set([])  #create empty set
    for document in dataSet:
        vocabSet = vocabSet | set(document) #union of the two sets
    return list(vocabSet)

def setOfWords2Vec(vocabList, inputSet):# 建立詞向量
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else: print "the word: %s is not in my Vocabulary!" % word
    return returnVec

def textParse(bigString):    #input is big string, #output is word list
    import re
    listOfTokens = re.split(r'\W*', bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

def preProcessing():
    docList=[]; classList = []; fullText =[]
    for i in range(1,26):
        wordList = textParse(open('email/spam/%d.txt' % i).read())
        docList.append(wordList)# 讀取文字
        classList.append(1)# 讀取每個文字的標籤
        wordList = textParse(open('email/ham/%d.txt' % i).read())
        docList.append(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)#create vocabulary# 生成詞向表
    data = []
    target = classList
    for docIndex in range(50):# 本例一共有50個文字
        data.append(setOfWords2Vec(vocabList,docList[docIndex]))生成詞向量
    return data,target#返回處理好的詞向量和標籤

3.訓練並預測

import textProcess as tp
from sklearn.naive_bayes import MultinomialNB
from sklearn.cross_validation import train_test_split
from sklearn.metrics import classification_report

data,target= tp.preProcessing()


X_train,X_test,y_train,y_test = train_test_split(data,target,test_size=0.25)

mnb = MultinomialNB()
mnb.fit(X_train,y_train)
y_pre = mnb.predict((X_test))
print y_pre # 預測結果
print y_test # 實際結果
print 'The accuracy of Naive Bayes Classifier is',mnb.score(X_test,y_test)
print classification_report(y_test,y_pre)

參考

機器學習實戰
Python機器學習及實踐

文字處理之貝葉斯垃圾郵件分類

本文所講解的是如何通過Python將文字讀取,並且將每一個文字生成對應的詞向量並返回. 文章的背景是將50封郵件(包含25封正常郵件,25封垃圾郵件)通過貝葉斯演算法對其進行分類. 主要分為如下幾個部分: ①讀取所有郵件; ②建立詞彙表; ③生成沒封郵件對應的詞

模式分類與應用-貝葉斯垃圾郵件分類

垃圾郵件分類任務要求使用檔案spambase.data中的資料，訓練垃圾郵件分類的貝葉斯分類器，並測試分類效能。資料初步分析 spambase.data是一個垃圾郵件的資料庫，來自於惠普公司的Hewlett Packard L

機器學習之貝葉斯演算法影象分類

資料集：資料集採用Sort_1000pics資料集。資料集包含1000張圖片，總共分為10類。分別是人(0)，沙灘（1），建築（2），大卡車（3），恐龍（4），大象（5），花朵（6），馬（7），山峰（8），食品（9）十類，每類100張，（資料集可以到網上下載）

機器學習實戰（三）——NaiveBayes樸素貝葉斯演算法郵件分類

樸素貝葉斯分類的原理是條件概率的計算：在已知先驗概率的條件下，計算後驗概率，後驗概率即是在當前資料條件下屬於分類1或者分類2 的概率，取概率較大的一個為輸出。貝葉斯準則很熟悉了，不解釋了，但在這個演算法中引入了一個很重要的思想：將文字等資料物件轉化為向量

文字分類演算法之--貝葉斯分類演算法的實現Java版本

package com.vista;import com.vista.ChineseSpliter;import com.vista.ClassConditionalProbability;import com.vista.PriorProbability;import com.vista.Trainin

機器學習之貝葉斯網路（三）

引言　　貝葉斯網路是機器學習中非常經典的演算法之一，它能夠根據已知的條件來估算出不確定的知識，應用範圍非常的廣泛。貝葉斯網路以貝葉斯公式為理論接觸構建成了一個有向無環圖，我們可以通過貝葉斯網路構建的圖清晰的根據已有資訊預測未來資訊。貝葉斯網路適用於表達和分析不確定性和概率性的事件，應用於有條件地依賴多種控

自然語言處理 - 樸素貝葉斯

https://wizardforcel.gitbooks.io/dm-algo-top10/content/naive-bayes.html 樸素貝葉斯為何樸素：因為引入條件獨立假設，特徵的順序變得無關緊要，所有優點naive。在自然語言處理中，另外一種說法叫做“詞袋模型”。

sklearn之貝葉斯分類器使用

貝葉斯分類器原理：基於先驗概率P(Y)，利用貝葉斯公式計算後驗概率P(Y/X)（該物件屬於某一類的概率），選擇具有最大後驗概率的類作為該物件所屬類特點：資料可離散可連續；對資料缺失、噪音不敏感；若屬性相關性小，分類效果好，相關也不低於決策樹樸素貝葉斯演算法學習的內

機器學習之貝葉斯學習

機器學習之貝葉斯學習一、概述二、貝葉斯決策論 1. 什麼是貝葉斯公式？ 2. 最小錯誤率貝葉斯決策 3. 最小風險貝葉斯決策 4. 極大似然估計（MLE）三、貝葉斯分類器 1. 樸素貝葉斯分類器基本知識 2. 三種常見的模型 2. 貝葉斯分類器

python資料分析與挖掘之貝葉斯演算法演算法實現

程式碼中有詳細的註釋訓練檔案： Txt檔案中為0，1矩陣，將圖片轉換為0，1矩陣見上一篇部落格方法 import numpy import operator from os import listdir class Bayes: def __init__(self):

數學之美：馬爾科夫鏈的擴充套件-貝葉斯網路詞分類

前面介紹的馬爾科夫鏈是一種狀態序列，但在實際中，各個事物之間不僅使用鏈序列起來的，而是互相交叉，錯綜複雜。因此通過各個事物之間的聯絡，可以將馬爾科夫鏈推廣至圖論中。沒想到貝葉斯網路還可以用於詞分類。在前面我們介紹到通過使用SVD可以對文字進行分類，如果把文字和關鍵詞的

sklearn學習之貝葉斯分類

樣本還是選用的鳶尾花，iris，多麼美麗的花兒 # -*- coding: utf-8 -*- import sklearn from sklearn import naive_bayes import matplotlib.pyplot as plt from sklearn.model_s

python資料分析：內容資料化運營（下）——基於多項式貝葉斯增量學習分類文字

案例背景及資料見上一篇案例實現匯入模組 import re import tarfile import os import numpy as np from bs4 import BeautifulSoup from sklearn.feature_extracti

【數學基礎】引數估計之貝葉斯估計

從統計推斷講起統計推斷是根據樣本資訊對總體分佈或總體的特徵數進行推斷，事實上，這經典學派對統計推斷的規定，這裡的統計推斷使用到兩種資訊：總體資訊和樣本資訊；而貝葉斯學派認為，除了上述兩種資訊以外，統計推斷還應該使用第三種資訊：先驗資訊。下面我們先把是那種資訊加以說明。

LDA原理（2）知識儲備之貝葉斯派和概率派

介紹貝葉斯派和概率派概率派認為要推斷的引數是固定的值，雖然概率是未知的，但是一定是固定的值，同時樣本是隨機的，既然這樣，他們的側重點就是研究樣本空間，比如我們不知道拋硬幣正面朝上的概率，那概率派的思路就是做很多次的拋硬幣的實驗，試驗次數越多，越能逼近概率

機器視覺學習之--貝葉斯學習 MATLAB二維正態分佈二維圖

1、貝葉斯介紹我個人一直很喜歡演算法一類的東西，在我看來演算法是人類智慧的精華，其中蘊含著無與倫比的美感。而每次將學過的演算法應用到實際中，並解決了實際問題後，那種快感更是我在其它地方體會不到的。一直想寫關於演算法的博文，也曾寫過零散的兩篇，但也許是相

模式識別與機器學習筆記專欄之貝葉斯分類決策（一）

[toc] > 這是模式識別與機器學習筆記專欄的第一篇，我會持續更新。在所有的生活場景中，我們無時無刻不在進行著模式識別。比如你看見迎面走來一個人，根據他的長相來辨認出他好像是你一年前某個活動小組的組長，然後你開始決策要不要和他打個招呼。或者你走進水果店，把西瓜拍了個遍來決定最後買哪一個。或者你突

機器學習學習筆記第十六章基於貝葉斯的新聞分類

利用貝葉斯分類器進行文字分類考慮情況 1 對於文字分析，首先我們應該先利用停用詞語料庫對部分大量出現的停用詞進行遮蔽，可以百度直接搜停用詞進行下載我們對於經常出現的詞，有可能是一個不太重要的詞，比

樸素貝葉斯演算法實現分類以及Matlab實現

開始其實在學習機器學習的一些演算法，最近也一直在看這方面的東西，並且嘗試著使用Matlab進行一些演算法的實現。這幾天一直在看得就是貝葉斯演算法實現一個分類問題。大概經過了一下這個過程：看書→演算法公式推演→網上查詢資料→進一步理解→蒐集資料集開始嘗

樸素貝葉斯演算法實現分類問題（三類）matlab程式碼

資料簡介本訓練資料共有625個訓練樣例，每個樣例有4個屬性x1,x2,x3,x4，每個屬性值可以取值{1，2，3，4，5}。資料集中的每個樣例都有標籤"L","B"或"R"。我們在這裡序號末尾為1的樣本當作測試集，共有63個，其他的作為訓練集，共有562個。下

文字處理之貝葉斯垃圾郵件分類

相關推薦