機器學習實戰（三）樸素貝葉斯NB（Naive Bayes）

阿新 • • 發佈：2018-11-02

0. 前言

貝葉斯演算法，是一類基於概率論的分類方法。樸素貝葉斯（Naive Bayes），是採取了貝葉斯最原始、最簡單的假設的演算法。

樸素貝葉斯演算法給出例項屬於各個類別的概率，然後選擇概率最大的一類。貝葉斯決策理論的核心思想是選擇具有最高概率的決策。

優點：在資料較少的情況下，仍然十分有效果
缺點：對於輸入資料的準備方式比較敏感
適用資料型別：標稱型資料

樸素貝葉斯假設：

所有特徵都是獨立的（即每個特徵出現的可能性與其他特徵無關）
每個特徵都是同等重要的

1. 條件概率

$P(A)$ 稱為事件 $A$ 的概率。 $P(A|B)$ 稱為在事件 $B$ 發生的情況下，事件 $A$ 的概率，這就是條件概率。根據概率論，給出以下的定義：

$P(B|A)=\frac{P(AB)}{P(A)}=\frac{P(A|B)P(B)}{P(A)}$

為了計算 $P(B|A)$ ，我們可以設法通過計算 $P(A|B)\ P(B)}\ {P(A)$ 來得到。

2. 樸素貝葉斯（Naive Bayes）

假設類別為 $c_i$ ，測試樣本為 $x$ ，要計算 $P(c_i|x)$ ，可以通過計算 $P(c_i|x)=\frac{P(x|c_i)P(c_i)}{P(x)}$ ，因為假設各個特徵獨立，所以有：

$P(x|c_i)=P(x_1,...,x_n|c_i)=P(x_1|c_i)...P(x_n|c_i)$

其概率，等於各個特徵在此類別前提下的概率之積。

$P(x)$ ：屬於不同類別的計算公式中， $P(x)$ 為分母相同，可以不計算
$P(c_i)$ ：為訓練集中，第 $i$ 個類別的概率，即第 $i$ 個類別的頻率（出現的樣本數/總樣本數）

$P(x_1|c_i)$ ：為訓練集屬於第 $i$ 個類別的樣本中，第 $i$ 個特徵的概率，即第 $i$ 個特徵的頻率（特徵出現的次數/總特徵數）

通過以上可得出樸素貝葉斯分類器，對於測試樣本 $x$ ，只需將每個特徵的特徵值與對應特徵的概率相乘，就可得到 $P(c_i|x)$ ，特徵值相當於一個權重。

3. 樸素貝葉斯應用於文字分類

在文字分類中，特徵值的選取可有兩種：

詞集模型（set-of-words model）：只判斷這個詞彙是否出現，即只有 $0$ 和 $1$
詞袋模型（bag-of-words model）：判斷這個詞彙出現的次數

演算法可根據以下步驟進行，其他應用場合也可參考：

將訓練集中所有文字的單詞拆分出來，去重，獲得詞彙表
根據詞彙表（特徵），對每個文字提取特徵值，將文字轉換為向量
計算 $P(c_i)$ 和 $P(x|c_i)$
將測試文字轉換為向量
將向量的每一個元素與對應的概率相乘，即第 $j$ 個元素的特徵值乘以 $P(x_j|c_i)$
計算出每一個類別的 $P(c_i|x)$ ，選擇最大概率的類別，作為分類結果

4. 實戰案例

以下將展示書中案例的程式碼段，所有程式碼和資料可以在github中下載：

4.1. 垃圾郵件分類案例

# coding:utf-8
from numpy import *
import re

"""
垃圾郵件分類案例
"""


# 根據所有樣本集合建立詞彙表
def createVocabList(dataSet):
    vocabSet = set()
    for document in dataSet:
        # 集合求並集
        vocabSet = vocabSet | set(document)
    return list(vocabSet)


# 通過詞彙表，文字轉換為向量
# 詞集模型（每個詞只記錄是否有出現）
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
    return returnVec


# 通過詞彙表，文字轉換為向量
# 詞袋模型（每個詞記錄出現的次數）
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec


# 訓練NB分類器
def trainNB0(trainMatrix, trainCategory):
    # 文件數量
    numTrainDocs = len(trainMatrix)
    # 向量中特徵（單詞）的數量
    numWords = len(trainMatrix[0])
    # 類別1佔總文件的比例
    pAbusive = sum(trainCategory) / float(numTrainDocs)
    # 為防止再之後計算過程中某一個特徵的概率為0，導致總的概率為0，不採用以下
    # p0Num = zeros(numWords)
    # p1Num = zeros(numWords)
    # p0Denom = 0.0
    # p1Denom = 0.0
    p0Num = ones(numWords)
    p1Num = ones(numWords)
    p0Denom = 2.0
    p1Denom = 2.0
    # 遍歷每一個文字向量
    for i in range(numTrainDocs):
        # 如果向量屬於類別1
        if trainCategory[i] == 1:
            # 通過向量，計算文件每個詞彙的出現次數
            p1Num += trainMatrix[i]
            # 計算類別1中，單詞的總數量
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    # 類別1中，每個單詞出現的次數/總單詞數=每個單詞的出現比例
    # 為防止數值太小，對其取Log
    p1Vect = log(p1Num / p1Denom)
    p0Vect = log(p0Num / p0Denom)
    return p0Vect, p1Vect, pAbusive


# 分類演算法
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    # 因為 p1Vec 取過對數，log(x1)+...+log(xn)=log(x1*...*xn) 等於乘積
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + log(1 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0


# 檔案解析
def textParse(bigString):
    listOfTokens = re.split('\W+', bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]


# 獲取高頻的前30個詞彙
def calcMostFreq(vocabList, fullText):
    freqDict = {}
    # 遍歷詞彙表中的每一個詞
    for token in vocabList:
        freqDict[token] = fullText.count(token)
    # 排序
    sortedFreq = sorted(freqDict.items(), key=lambda item: item[1], reverse=True)
    return sortedFreq[:30]


# 垃圾郵件測試
def spamTest():
    docList = []
    classList = []
    fullText = []
    # 遍歷正的資料來源和反的資料來源
    for i in range(1, 26):
        wordList = textParse(open('email/spam/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(open('email/ham/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    # 建立詞彙表
    vocabList = createVocabList(docList)
    # 獲取高頻詞彙
    top30Words = calcMostFreq(vocabList, fullText)
    # 去除高頻詞彙，因高頻詞彙很可能是冗餘詞彙
    for pairW in top30Words:
        if pairW[0] in vocabList:
            vocabList.remove(pairW[0])
    trainingSet = list(range(50))
    testSet = []
    # 選擇測試向量
    for i in range(10):
        randIndex = int(random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del (trainingSet[randIndex])
    trainMat = []
    trainClasses = []
    # 建立訓練集合
    for docIndex in trainingSet:
        # 將文字集合轉換為文字向量矩陣
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    # p0V: 類別0中，每個詞彙出現的比例
    # p1V: 類別1中，每個詞彙出現的比例
    # pSpam: 類別1的文字數量佔總文字數量的比例
    p0V, p1V, pSpam = trainNB0(array(trainMat), array(trainClasses))
    correctCount = 0
    for docIndex in testSet:
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        if classifyNB(array(wordVector), p0V, p1V, pSpam) == classList[docIndex]:
            correctCount += 1
    print('the correct rate is: ', float(correctCount) / len(testSet))
    return vocabList, p0V, p1V


# 獲取最具表徵性的詞彙
def getTopWords(vocabList, p0V, p1V):
    top0 = []
    top1 = []
    for i in range(len(p0V)):
        if p0V[i] > -6.0:
            top0.append((vocabList[i], p0V[i]))
        if p1V[i] > -6.0:
            top1.append((vocabList[i], p1V[i]))
    sorted0 = sorted(top0, key=lambda pair: pair[1], reverse=True)
    print("***** 0 *****")
    for item in sorted0:
        print(item[0])
    sorted1 = sorted(top1, key=lambda pair: pair[1], reverse=True)
    print('***** 1 *****')
    for item in sorted1:
        print(item[0])


if __name__ == '__main__':
    vocabList, p0V, p1V = spamTest()
    # getTopWords(vocabList, p0V, p1V)

如果這篇文章對你有一點小小的幫助，請給個關注喔~我會非常開心的~

機器學習實戰（三）樸素貝葉斯NB（Naive Bayes）

目錄 0. 前言 1. 條件概率 2. 樸素貝葉斯（Naive Bayes） 3. 樸素貝葉斯應用於文字分類 4. 實戰案例 4.1. 垃圾郵件分類案例學習完機器學習實戰的樸素貝葉斯，簡單的做個筆記。文中

機器學習實戰讀書筆記(3)--樸素貝葉斯

基於貝葉斯決策理論的分類方法優點:在資料較少的情況下仍然有效,可以處理多類別問題缺點:對輸入資料的準備方式比較敏感,需要標稱資料.確定貝葉斯最優假設的計算代價較大樸素貝葉斯是貝葉斯決策理論的一部分.貝葉斯決策理論的核心思想:一個數據集包括2類(或兩類以上

<機器學習實戰>讀書筆記--樸素貝葉斯

1.樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法，最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型（Naive Bayesian Model，NBM） 2.樸素貝葉斯公式 P(B|A)的意思是在A事件的情況下，發生B事件的概率。 3.樸素貝

《機器學習實戰》之四——樸素貝葉斯

這裡寫自定義目錄標題《機器學習實戰》之四——樸素貝葉斯一. 數學部分二. 準備資料階段三. NB訓練函式針對演算法部分的改進四. NB分類函式五. 測試NB分類函式六. 使用樸素貝葉斯進行垃

機器學習實戰第四章——樸素貝葉斯分類(原始碼解析)

樸素貝葉斯分類 #coding=utf-8 ''' Created on 2016年1月9日 @author: admin ''' from numpy import * # 載入資料集函式 def loadDataSet(): # 定義郵件列表 p

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

groups group news ckey put epo test electron final 使用python3 學習樸素貝葉斯分類api 設計到字符串提取特征向量歡迎來到我的git下載源代碼: https://github.com/linyi0604/kag

【斯坦福---機器學習】複習筆記之樸素貝葉斯演算法

本講大綱： 1.樸素貝葉斯（Naive Bayes） 2.神經網路（Neural Networks） 3.支援向量機（Support vector machines） 1.樸素貝葉斯前面講的主要是是二元值的特徵，更一般化的是xi可以取{1，2，3

機器學習-23：MachineLN之樸素貝葉斯

你要的答案或許都在這裡：小鵬的部落格目錄學習樸素貝葉斯需要清楚下面幾個概念：貝葉斯模型是指模型引數的推斷用的是貝葉斯估計方法，也就是需要指定先驗分佈，再求取後驗分佈。貝葉斯分類是一類演算

機器學習-帶你搞懂樸素貝葉斯分類演算法

帶你搞懂樸素貝葉斯分類演算法你搞懂樸素貝葉斯分類算貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單，也是常見的一種分類方法。這篇文章我儘可能用直白的話語總結一下我們學習會上講到的樸素貝葉斯分

資料探勘十大經典演算法(九) 樸素貝葉斯分類器 Naive Bayes

分類演算法--------貝葉斯定理：樸素貝葉斯的基本思想：對於給出的待分類項，求解在此項出現的條件下各個類別出現的概率，哪個最大，就認為此待分類項屬於哪個類別。可以看到，整個樸素貝葉斯分類分為三個階段：第一階段——準備工作階段，這個階段的任務是為樸

機器學習實戰（Machine Learning in Action）學習筆記————04.樸素貝葉斯分類（bayes）

機器學習實戰（Machine Learning in Action）學習筆記————04.樸素貝葉斯分類（bayes）關鍵字：樸素貝葉斯、python、原始碼解析作者：米倉山下時間：2018-10-25機器學習實戰（Machine Learning in Action,@author: Peter Harri

Python《機器學習實戰》讀書筆記（四）——樸素貝葉斯

第四章基於概率論的分類方法：樸素貝葉斯 4-1 基於貝葉斯決策理論的分類方法優點：在資料較小的情況下仍然有效，可以處理多類別問題缺點：對於輸入資料的準備方式較為敏感。適用資料型別：標稱型資料。假設現在我們有一個數據集，它由兩類資

機器學習演算法（三）——樸素貝葉斯演算法及R語言實現方法

樸素貝葉斯演算法也是一種常用的分類演算法，尤其在對文字文件分類的學習任務中，樸素貝葉斯分類是最有效的演算法之一。所謂的樸素，即假設在給定目標值時屬性值之間相互條件獨立，雖然這一假設看似不合理，但其最終的分類效果卻普遍較好。一、概述 1、貝葉斯公式 2、最大後驗假設（MA

機器學習實戰（4）——樸素貝葉斯（下）

一、大概框架1、貝葉斯決策：對某個資料點進行分類，有多個類別供你選擇，我們自然要選擇可能性最大那個，這就是貝葉斯決策的核心思想舉個例子：如果你面前有一個黑人，讓你判斷他是哪個洲的人，給你三個選擇：亞洲人、非洲人、美洲人，你會選擇哪個？哈哈哈，這麼簡單的問題，你居然還問的出口，

機器學習讀書筆記（四）樸素貝葉斯基礎篇之網站賬號分類

pan 技巧 nbsp 增強就是使用分類問題預測結果一、條件概率在學習計算p1和p2概率之前，我們需要了解什麽是條件概率，就是指在事件B發生的情況下，事件A發生的概率，用P(A|B)來表示。根據文氏圖，可以很清楚地看到在事件B發生的情況下，事件A發

機器學習 - 樸素貝葉斯（下）- 樸素貝葉斯分類器

機器學習 - 樸素貝葉斯（下）- 樸素貝葉斯分類器樸素貝葉斯重要假設特徵型別樸素貝葉斯分類模型舉例貝葉斯估計模型特點

機器學習數學原理（4）——樸素貝葉斯演算法

機器學習數學原理（4）——樸素貝葉斯模型樸素貝葉斯模型（Naive Bayes Model），是一種基於貝葉斯定理與特徵條件獨立假設的分類方法，與決策樹模型（Decision Tree Model）同為目前使用最廣泛的分類模型之一，在各個領域都有廣泛的應用，例如我們經常會用到的垃圾

機器學習（十二）樸素貝葉斯分類

樸素貝葉斯分類作者：hjimce 本篇博文是我學習《機器學習實戰》這邊書時候的學習筆記。記得之前看到這個演算法名的時候，我以為很難，因為我不是很喜歡概率論的知識，其實最主要的原因是因為已經概率論的相關知識都忘光了，所以一直不想去複習，於是就覺得這個演算法不好學。不

機器學習筆記（一）樸素貝葉斯的Python程式碼實現

上研究生的時候，一心想讀生物資訊學的方向，由此也選修了生物數學，計算生物學等相關課程。給我印象最深的是給我們計算生物學的主講老師，他北大數學系畢業，後來做起了生物和數學的交叉學科研究。課上講的一些演算法比如貝葉斯，馬爾科夫，EM等把我給深深折磨了一遍。由於那時候

R語言與機器學習學習筆記（分類演算法）（3）樸素貝葉斯

演算法三：樸素貝葉斯演算法在貝葉斯決策中，對於先驗概率p(y)，分為已知和未知兩種情況。 1. p(y)已知，直接使用貝葉斯公式求後驗概率即可； 2. p(y)未知，可以使用聶曼-皮爾遜決策(N-P決策)來計算決策面。而最大最小損失規則主要就是使用解決最小損失規則時先驗概率未知或難以計算的問題的

機器學習實戰（三）樸素貝葉斯NB（Naive Bayes）

目錄

0. 前言

1. 條件概率

2. 樸素貝葉斯（Naive Bayes）

3. 樸素貝葉斯應用於文字分類

4. 實戰案例

4.1. 垃圾郵件分類案例

相關推薦