樸素貝葉斯演算法的推導與實踐

阿新 • • 發佈：2018-12-02

1. 概述

在此前的文章中，我們介紹了用於分類的演算法：
k 近鄰演算法
 決策樹的構建演算法 – ID3 與 C4.5 演算法
但是，有時我們無法非常明確地得到分類，例如當資料量非常大時，計算每個樣本與預測樣本之間的距離或是構建決策樹都會因為運算量過大而力不從心。

2. 樸素貝葉斯理論

#此處有圖片

假設我們有上面這個資料集，那麼我們如何通過一個新的座標預測新座標應該屬於哪個類別呢？
我們有下面三種方法：

使用 KNN 演算法 – 進行 1000 次距離計算

使用決策樹演算法 – 分別沿X軸、Y軸劃分資料
計算新的點屬於每個類別的概率，並進行比較
顯然，最佳的方法是方法3。

2.1. 貝葉斯概率

通常我們所說的概率指的是“頻數概率”，不需要進行邏輯推理。
貝葉斯概率引入先驗知識，通過邏輯推理來處理不確定性命題。

3. 條件概率

#此處有圖片

上面這幅維恩圖中，我們可以清楚的看到，在事件 B 發生的情況下，事件 A 發生的概率就是 P(A∩B) 除以 P(B)：
#此處有圖片

因此：
#此處有圖片

同理：
#此處有圖片

所以：
#此處有圖片

也就是：
#此處有圖片

最後這個公式就是條件概率公式。

4.

我們把P(A)稱為“先驗概率”，即在B事件發生之前，我們對A事件概率的一個判斷。
P(A|B)稱為“後驗概率”，即在B事件發生之後，我們對A事件概率的重新評估。
P(B|A)/P(B)稱為“可能性函式”，這是一個調整因子，使得預估概率更接近真實概率。

因此：

後驗概率 = 先驗概率 * 調整因子
這就是貝葉斯推斷。

5. 樸素貝葉斯推斷

P(A|X) 表示 X 條件下 A 事件發生的概率，那麼假設 X 具有 n 個特徵，那麼：
#此處有圖片

如果 n 個特徵相互獨立，那麼可以進一步推導：
#此處有圖片

這個公式就是樸素貝葉斯推斷，而他基於的基本假設：所有特徵相互獨立，就是條件獨立性假設。

6. 樸素貝葉斯公式的應用

假設我們統計一個門診的接診情況如下：

門診接診情況

症狀	職業	疾病
打噴嚏	護士	感冒
打噴嚏	農夫	過敏
頭痛	建築工人	腦震盪
頭痛	建築工人	感冒
打噴嚏	教師	感冒
頭痛	教師	腦震盪

現在來了第七個病人，他是一個打噴嚏的建築工人，那麼如何計算他患感冒的概率呢？

6.1. 計算

根據樸素貝葉斯公式，我們可以求得：
#此處有圖片

即：
#此處有圖片

7. 通過 python 實現樸素貝葉斯演算法

下面是一個預測一行文字是否是負面侮辱性語言的例子。
如果我們認為語句中，每個詞出現的概率都是獨立的，那麼我們就可以應用樸素貝葉斯公式來計算給定的語句的分類概率了。

7.1. 程式示例

# -*- coding: UTF-8 -*-
# {{{
import numpy as np
from functools import reduce


def loadDataSet():
    """
    建立實驗樣本
    :return:
        postingList - 實驗樣本切分的詞條
        classVec - 類別標籤向量
    """
    dataSet = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],  # 切分的詞條
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    results = [0, 1, 0, 1, 0, 1]  # 類別標籤向量，是否是侮辱性，0. 否，1. 是
    return dataSet, results  # 返回實驗樣本切分的詞條和類別標籤向量


def createVocabList(dataSet):
    """
    獲取去重後的詞彙表

    :param dataSet:
    :return:
    """
    vocabSet = set()
    for document in dataSet:
        vocabSet |= set(document)
    return list(vocabSet)


def wordsToVector(dataList, vocabularys):
    """
    將原始資料向量化，向量的每個元素為1或0

    :param vocabularys: createVocabList返回的列表
    :param dataList: 切分的詞條列表
    :return: 文件向量,詞集模型
    """
    vector = [0] * len(vocabularys)
    for word in dataList:  # 遍歷每個詞條
        if word in vocabularys:  # 如果詞條存在於詞彙表中，則置1
            vector[vocabularys.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    return vector  # 返回文件向量


def trainNB0(trainMap, results):
    """
    樸素貝葉斯分類器訓練函式

    :param trainMap: 訓練文件矩陣
    :param results: 訓練類別標籤向量
    :return:
        p0Vect - 侮辱類的條件概率陣列
        p1Vect - 非侮辱類的條件概率陣列
        pAbusive - 文件屬於侮辱類的概率
    """

    dataListNum = len(trainMap)
    vocabularysNum = len(trainMap[0])

    """ 計算文件屬於侮辱詞概率 """
    pAbusive = sum(results) / float(dataListNum)

    p0Num = np.zeros(vocabularysNum)
    p1Num = np.zeros(vocabularysNum)  # 建立numpy.zeros陣列,
    p0Denom = 0.0
    p1Denom = 0.0

    """ 將所有行按是否是侮辱類分別疊加，統計各個詞出現的次數 """
    for i in range(dataListNum):
        if results[i] == 1:  # 統計屬於侮辱類的條件概率所需的資料，即P(w0|1),P(w1|1),P(w2|1)···
            p1Num += trainMap[i]
            p1Denom += sum(trainMap[i])
        else:  # 統計屬於非侮辱類的條件概率所需的資料，即P(w0|0),P(w1|0),P(w2|0)···
            p0Num += trainMap[i]
            p0Denom += sum(trainMap[i])

    """ 計算概率 """
    p1Vect = p1Num / p1Denom
    p0Vect = p0Num / p0Denom
    return p0Vect, p1Vect, pAbusive  # 返回屬於侮辱類的條件概率陣列，屬於非侮辱類的條件概率陣列，文件屬於侮辱類的概率


def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    """
    樸素貝葉斯分類器分類函式

    :param vec2Classify: 待分類的詞條陣列
    :param p0Vec: 侮辱類的條件概率陣列
    :param p1Vec: 非侮辱類的條件概率陣列
    :param pClass1: 文件屬於侮辱類的概率
    :return: 是否屬於侮辱類，0. 不屬於，1. 屬於
    """
    p1 = reduce(lambda x, y: x * y, vec2Classify * p1Vec) * pClass1  # 對應元素相乘
    p0 = reduce(lambda x, y: x * y, vec2Classify * p0Vec) * (1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0


if __name__ == '__main__':
    """ 建立實驗樣本 """
    dataSet, results = loadDataSet()
    """ 去重，建立詞彙表 """
    vocabularys = createVocabList(dataSet)
    trainMap = []
    """ 構造向量矩陣，標記每一行出現的詞語 """
    for dataList in dataSet:
        trainMap.append(wordsToVector(dataList, vocabularys))
        
    p0V, p1V, pAb = trainNB0(np.array(trainMap), np.array(results))
    
    testEntry = ['love', 'my', 'dalmation']  # 測試樣本1
    thisDoc = np.array(wordsToVector(testEntry, vocabularys))
    if classifyNB(thisDoc, p0V, p1V, pAb):
        print(testEntry, '屬於侮辱類')  # 執行分類並列印分類結果
    else:
        print(testEntry, '屬於非侮辱類')  # 執行分類並列印分類結果
        
    testEntry = ['stupid', 'garbage']  # 測試樣本2
    thisDoc = np.array(wordsToVector(testEntry, vocabularys))
    if classifyNB(thisDoc, p0V, p1V, pAb):
        print(testEntry, '屬於侮辱類')  # 執行分類並列印分類結果
    else:
        print(testEntry, '屬於非侮辱類')  # 執行分類並列印分類結果
# }}}

7.2. 原理解讀

基本的原理其實很簡單，就是統計各個詞分別屬於侮辱類和非侮辱類的出現次數，從而就可以計算他們的概率了。

8. 參考資料

Peter Harrington 《機器學習實戰》。
https://blog.csdn.net/c406495762/article/details/77341116。

樸素貝葉斯演算法優化與 sklearn 實現

1. 引言上一篇日誌中，我們主要介紹了貝葉斯演算法，並提供了 python 實踐：樸素貝葉斯演算法的推導與實踐但執行上一篇日誌中的示例，我們發現出現了下面的結果： ['love', 'my', 'dalmation'] 屬於非侮辱類 ['stu

樸素貝葉斯演算法-推導總結

從今天起，總結機器學習演算法，先從最簡單的，樸素的貝葉斯演算法開始，為什麼最近又開始總結這些機器學習演算法那？原因很簡單，這些演算法很久之前都是推導過的，但是沒有總結，很快就忘記了，複習也不好複習，面試一問演算法題目還好，到了數學推導，就磕磕絆絆，然後被各種

NB樸素貝葉斯理論推導與三種常見模型

轉自：http://www.tuicool.com/articles/zEJzIbR 樸素貝葉斯（Naive Bayes）是一種簡單的分類演算法，它的經典應用案例為人所熟知：文字分類（如垃圾郵件過濾）。很多教材都從這些案例出發，本文就不重複這些內容了，而把重點放在理論推導（其實很淺顯，別被“理論”嚇到），三

樸素貝葉斯演算法的推導與實踐

1. 概述在此前的文章中，我們介紹了用於分類的演算法： k 近鄰演算法決策樹的構建演算法 – ID3 與 C4.5 演算法但是，有時我們無法非常明確地得到分類，例如當資料量非常大時，計算每個樣本與預測樣本之間的距

機器學習實踐（九）—sklearn之樸素貝葉斯演算法

一、樸素貝葉斯演算法什麼是樸素貝葉斯分類方法屬於哪個類別概率大，就判斷屬於哪個類別概率基礎概率定義為一件事情發生的可能性 P(X) : 取值在[0, 1] 聯合概率、條件概率與相互獨立

機器學習之樸素貝葉斯演算法與程式碼實現

樸素貝葉斯演算法與程式碼實現演算法原理樸素貝葉斯是經典的機器學習演算法之一，也是為數不多的基於概率論的分類演算法。樸素貝葉斯原理簡單，也很容易實現，多用於文字分類，比如垃圾郵件過濾。該演算法的優點在於簡單易懂、學習效率高、在某些領

小白python學習——機器學習篇——樸素貝葉斯演算法

一.大概思路： 1.找出資料集合，所有一個單詞的集合，不重複，各個文件。 2.把每個文件換成0,1模型，出現的是1，就可以得到矩陣長度一樣的各個文件。 3.計算出3個概率，一是侮辱性的文件概率，二是侮辱性文件中各個詞出現的概率，三是非侮辱性文件中各個詞出現的概率。 4.二、三計算方法

樸素貝葉斯演算法原理

（作者：陳玓玏） 1. 損失函式假設我們使用0-1損失函式，函式表示式如下： Y Y Y為真實

樸素貝葉斯演算法應用——垃圾簡訊分類

理解貝葉斯公式其實就只要掌握：1、條件概率的定義；2、乘法原理 P (

機器學習——樸素貝葉斯演算法

概率定義為一件事情發生的可能性概率分為聯合概率和條件概率聯合概率:包含多個條件，且所有條件同時成立的概率記作:P(A,B) P(A,B)=P(A)P(B) 條件概率:就是事件A在另外一個事件B已經發生的條件概率記作:P(A|B)

機器學習——樸素貝葉斯演算法Python實現

簡介這裡參考《統計學習方法》李航編進行學習總結。詳細演算法介紹參見書籍，這裡只說明關鍵內容。即條件獨立下：p{X=x|Y=y}=p{X1=x1|Y=y} * p{X2=x2|Y=y} *...* p{Xn=xn|Y=y} （4.4）等價於p{Y=ck|X=x

第3章樸素貝葉斯演算法（二演算法實戰）

3.6樸素貝葉斯實踐 3.6.1樸素貝葉斯之微博評論篩選以微博評論為例。為了不影響微博的發展，我們要遮蔽低俗的言論，所以要構建一個快速過濾器，如果某條評論使用了負面或者侮辱性等低俗的語言，那麼就將該留言標誌為內容不當。過濾這類內容是一個很常見的需求。對此問題建

機器學習樸素貝葉斯演算法

樸素貝葉斯屬於監督學習的生成模型，實現簡單，沒有迭代，學習效率高，在大樣本量下會有較好表現。但因為假設太強——特徵條件獨立，在輸入向量的特徵條件有關聯的場景下，並不適用。樸素貝葉斯演算法：主要思路是通過聯合概率建模，運用貝葉斯定理求解後驗概率;將後驗概率最大者對應的類別作

【ML學習筆記】樸素貝葉斯演算法的demo（機器學習實戰例子）

礙於這學期課程的緊迫，現在需要儘快從課本上掌握一些ML演算法，我本不想經過danger zone，現在看來卻只能儘快進入danger zone，數學理論上的缺陷只能後面找時間彌補了。如果你在讀這篇文章，希望你不要走像我一樣的道路，此舉實在是出於無奈，儘量不要去做一個心

樸素貝葉斯演算法的python實現

import numpy as np import re #詞表到向量的轉換函式 def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please']

2.樸素貝葉斯演算法

樸素貝葉斯程式碼（原理很簡單）直接上程式碼 import numpy as np from collections import Counter,defaultdict class Nbayes: def __init__(self): self

樸素貝葉斯演算法-My way of ML7

預備知識聯合概率：包含多個條件，所有條件同時成立概率P（A，B）=P（A）P（B）條件概率：事件A發生在事件B發生的條件之下的概率。所有的特徵值無關的時候才能適用條件概率樸素貝葉斯的前提是：特徵條件獨立，哈哈，這也是她被叫做樸素的原因，因為特徵之間很難獨

資料探勘領域十大經典演算法之—樸素貝葉斯演算法（超詳細附程式碼）

簡介 NaïveBayes演算法，又叫樸素貝葉斯演算法，樸素：特徵條件獨立；貝葉斯：基於貝葉斯定理。屬於監督學習的生成模型，實現簡單，沒有迭代，並有堅實的數學理論（即貝葉斯定理）作為支撐。在大量樣本下會有較好的表現，不適用於輸入向量的特徵條件有關聯的場景。基本思想 (1)

機器學習實戰讀書筆記（四）：樸素貝葉斯演算法

樸素貝葉斯優點: 在資料較少的情況下仍然有效可以處理多類別問題缺點：對輸入的資料的準備方式較為敏感適用資料型別：標稱型資料 p1(x,y)>p2(x,y) 那麼類別是1 p2(x,y)>p1(x,y) 那麼類別是2 貝葉斯決策的核心是選擇具有最高概率的決策

Python實現樸素貝葉斯演算法 --- 過濾垃圾郵件

# -*- coding:utf-8 -*- import numpy as np import random import re __author__ = 'yangxin' """ 過濾垃圾郵件 """ class FilterSpam(object): #

樸素貝葉斯演算法的推導與實踐

1. 概述

2. 樸素貝葉斯理論

2.1. 貝葉斯概率

3. 條件概率

4.

5. 樸素貝葉斯推斷

6. 樸素貝葉斯公式的應用

門診接診情況

6.1. 計算

7. 通過 python 實現樸素貝葉斯演算法

7.1. 程式示例

7.2. 原理解讀

8. 參考資料

相關推薦