資料探勘十大演算法（九）：樸素貝葉斯原理、例項與Python實現

阿新 • • 發佈：2019-01-09

一、條件概率的定義與貝葉斯公式

二、樸素貝葉斯分類演算法

樸素貝葉斯是一種有監督的分類演算法，可以進行二分類，或者多分類。一個數據集例項如下圖所示：

現在有一個新的樣本， X = (年齡：<=30, 收入：中，是否學生：是，信譽：中)，目標是利用樸素貝葉斯分類來進行分類。假設類別為C(c1=是或 c2=否)，那麼我們的目標是求出P(c1|X)和P(c2|X)，比較誰更大，那麼就將X分為某個類。

下面，公式化樸素貝葉斯的分類過程。

三、例項

下面，將下面這個資料集作為訓練集，對新的樣本X = (年齡：<=30, 收入：中，是否學生：是，信譽：中) 作為測試樣本，進行分類。

我們可以將這個例項中的描述屬性和類別屬性，與公式對應起來，然後計算。

四、Python實現

現在，利用Python編寫上述例項對應的程式碼，程式碼如下。

# 針對 “買電腦”例項進行樸素貝葉斯分類


if __name__ == '__main__':

    # 描述屬性分別用數字替換
    # 年齡, <=30-->0, 31~40-->1, >40-->2
    # 收入, '低'-->0, '中'-->1, '高'-->2
    # 是否學生, '是'-->0, '否'-->1
    # 信譽: '中'-->0, '優'-->1
    # 類別屬性用數字替換
    # 購買電腦是-->0, 不購買電腦否-->1
    MAP = [{'<=30': 0, '31~40': 1, '>40': 2},
           {'低': 0, '中': 1, '高': 2},
           {'是': 0, '否': 1},
           {'中': 0, '優': 1},
           {'是': 0, '否': 1}]

    # 訓練樣本
    train_samples = ["<=30 高 否 中 否",
                     "<=30 高 否 優 否",
                     "31~40 高 否 中 是",
                     ">40 中 否 中 是",
                     ">40 低 是 中 是",
                     ">40 低 是 優 否",
                     "31~40 低 是 優 是",
                     "<=30 中 否 中 否",
                     "<=30 低 是 中 是",
                     ">40 中 是 中 是",
                     "<=30 中 是 優 是",
                     "31~40 中 否 優 是",
                     "31~40 高 是 中 是",
                     ">40 中 否 優 否"]

    # 下面步驟將文字，轉化為對應數字
    train_samples = [sample.split(' ') for sample in train_samples]
    # print(train_samples)
    # exit()
    train_samples = [[MAP[i][attr] for i, attr in enumerate(sample)]for sample in train_samples]
    # print(train_samples)

    # 待分類樣本
    X = '<=30 中 是 中'
    X = [MAP[i][attr] for i, attr in enumerate(X.split(' '))]

    # 訓練樣本數量
    n_sample = len(train_samples)

    # 單個樣本的維度： 描述屬性和類別屬性個數
    dim_sample = len(train_samples[0])

    # 計算每個屬性有哪些取值
    attr = []
    for i in range(0, dim_sample):
        attr.append([])

    for sample in train_samples:
        for i in range(0, dim_sample):
            if sample[i] not in attr[i]:
                attr[i].append(sample[i])

    # 每個屬性取值的個數
    n_attr = [len(attr) for attr in attr]

    # 記錄不同類別的樣本個數
    n_c = []
    for i in range(0, n_attr[dim_sample-1]):
        n_c.append(0)

    # 計算不同類別的樣本個數
    for sample in train_samples:
        n_c[sample[dim_sample-1]] += 1

    # 計算不同類別樣本所佔概率
    p_c = [n_cx / sum(n_c) for n_cx in n_c]
    # print(p_c)

    # 將使用者按照類別分類
    samples_at_c = {}
    for c in attr[dim_sample-1]:
        samples_at_c[c] = []
    for sample in train_samples:
        samples_at_c[sample[dim_sample-1]].append(sample)

    # 記錄 每個類別的訓練樣本中，取待分類樣本的某個屬性值的樣本個數
    n_attr_X = {}
    for c in attr[dim_sample-1]:
        n_attr_X[c] = []
        for j in range(0, dim_sample-1):
            n_attr_X[c].append(0)

    # 計算 每個類別的訓練樣本中，取待分類樣本的某個屬性值的樣本個數
    for c, samples_at_cx in zip(samples_at_c.keys(), samples_at_c.values()):
        for sample in samples_at_cx:
            for i in range(0, dim_sample-1):
                if X[i] == sample[i]:
                    n_attr_X[c][i] += 1

    # 字典轉化為list
    n_attr_X = list(n_attr_X.values())
    # print(n_attr_X)

    # 儲存最終的概率
    result_p = []
    for i in range(0, n_attr[dim_sample-1]):
        result_p.append(p_c[i])

    # 計算概率
    for i in range(0, n_attr[dim_sample-1]):
        n_attr_X[i] = [x/n_c[i] for x in n_attr_X[i]]
        for x in n_attr_X[i]:
            result_p[i] *= x

    print('概率分別為', result_p)

    # 找到概率最大對應的那個類別，就是預測樣本的分類情況
    predict_class = result_p.index(max(result_p))
    print(predict_class)

執行結果如圖所示：

表明，樣本被分為第一類，即會購買電腦。對應的概率與手動計算的結果相同。

參考：

1. 資料探勘十大演算法

2. 資料倉庫與資料探勘李春葆

資料探勘十大演算法（九）：樸素貝葉斯原理、例項與Python實現

一、條件概率的定義與貝葉斯公式二、樸素貝葉斯分類演算法樸素貝葉斯是一種有監督的分類演算法，可以進行二分類，或者多分類。一個數據集例項如下圖所示：現在有一個新的樣本， X = (年齡：<=30, 收入：中，是否學生：是，信譽：中)，目標是利用樸素貝

資料探勘十大演算法（九）：樸素貝葉斯 python和sklearn實現

第三個演算法終於算是稍有了解了，其實當你結合資料瞭解了它的實現原理後，你會發現確實很樸素。這裡對樸素貝葉斯演算法做一個介紹和總結，包括（原理、一個程式碼示例、sklearn實現），皆為親自實踐後的感悟，下面進入正文。原理：首先我們需要了解概率論的一些簡單知識：

資料探勘十大演算法（一）：決策樹演算法 python和sklearn實現

學完到第三章——決策樹，python程式碼實現的僅是ID3演算法，sklearn為優化過的C4.5，這裡做一個詳細的總結包括（原理、程式碼、視覺化、scikit-learn實現），皆為親自實踐後的感悟。以下進入正文。早前簡單瞭解了決策樹的原理，然後為了儘快使用便沒有深究直

資料探勘十大演算法（五）：EM(Expectation Maximum)演算法原理與Python實現

參考：一、一個簡單的概率問題實驗：現在有A和B兩個硬幣，我們從這兩個硬幣中，隨機選取5次，做5組實驗，每組實驗內容是：丟擲所選的硬幣，記錄正反面。實驗資料如下：目標：根據所得到的實驗資料，分別求出硬幣A和B丟擲後正面向上的概率。根據古典概率的原

資料探勘入門系列教程（七）之樸素貝葉斯進行文字分類

資料探勘入門系列教程（七）之樸素貝葉斯進行文字分類貝葉斯分類演算法是一類分類演算法的總和，均以貝葉斯定理為基礎，故稱之為貝葉斯分類。而樸素貝葉斯分類演算法就是其中最簡單的分類演算法。樸素貝葉斯分類演算法樸素貝葉斯分類演算法很簡單很簡單，就一個公式如下所示： P(B|A) = \frac{P(A|B) P

『資料探勘十大演算法』筆記二：SVM-支援向量機

資料探勘Top 10演算法 C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART 支援向量機支援向量機，英文為Support Ve

機器學習實戰讀書筆記（四）：樸素貝葉斯演算法

樸素貝葉斯優點: 在資料較少的情況下仍然有效可以處理多類別問題缺點：對輸入的資料的準備方式較為敏感適用資料型別：標稱型資料 p1(x,y)>p2(x,y) 那麼類別是1 p2(x,y)>p1(x,y) 那麼類別是2 貝葉斯決策的核心是選擇具有最高概率的決策

機器學習回顧篇（5）：樸素貝葉斯演算法

1 引言說到樸素貝葉斯演算法，很自然地就會想到貝葉斯概率公式，這是我們在高中的時候就學過的只是，沒錯，這也真是樸素貝葉斯演算法的核心，今天我們也從貝葉斯概率公式開始，全面擼一擼樸素貝葉斯演算法。 2 貝葉斯概率公式 2.1 聯合概率與全概率公式定義1：完備事件組 ${A_1} \cup {A_2

生成式學習演算法（四）之----樸素貝葉斯分類器

樸素貝葉斯分類器（演算法）與樸素貝葉斯假設在高斯判別分析模型（GDA）中，特徵向量$ x$ 是連續實值向量。現在我們來討論分量$ x_j$ 取離散值的貝葉斯樸素貝葉斯模型。在文字分類問題中，有一個問題是分出一個郵件是（$y=1$ ）或者不是（$y=1$ ）垃圾郵件。我們的訓練資料集是一些標好是否是

學習筆記（七）：樸素貝葉斯在Web安全中的六個應用

一、檢測Web異常操作 1.資料蒐集：一樣 2.特徵化使用詞集模型，統計全部操作命令，去重後形

機器學習筆記（五）：樸素貝葉斯分類器

一、概述 1.1 簡介樸素貝葉斯（Naive Bayesian）是基於貝葉斯定理和特徵條件獨立假設的分類方法，它通過特徵計算分類的概率，選取概率大的情況進行分類，因此它是基於概率論的一種機器學習分類方法。因為分類的目標是確定的，所以也是屬於監督學習。 Q1：什麼是基於概率論的方

《機器學習實戰》筆記（三）：樸素貝葉斯

4.1 基於貝葉斯決策理論的分類方法樸素貝葉斯是貝葉斯決策理論的一部分，貝葉斯決策理論的的核心思想，即選擇具有最高概率的決策。若p1(x,y)和p2(x,y)分別代表資料點(x,y)屬於類別1,2的概率，則判斷新資料點(x,y)屬於哪一類別的規則是： 4.3 使用條件概率來分類

Python3《機器學習實戰》學習筆記（五）：樸素貝葉斯實戰篇之新浪新聞分類

一前言拉普拉斯平滑垃圾郵件過濾新浪新聞分類二樸素貝葉斯改進之拉普拉斯平滑上篇文章提到過，演算法存在一定的問題，需要進行改進。那麼需要改進的地方在哪裡呢？利用貝葉斯分類器對文件進行分類時，要計算多個概率的乘積以獲得

機器學習實戰教程（五）：樸素貝葉斯實戰篇之新浪新聞分類

原文連結： Jack-Cui，https://cuijiahua.com/blog/2017/11/ml_5_bayes_2.html 一、前言上篇文章機器學習實戰教程（四）：樸素貝葉斯基礎篇之言論過濾器講解了樸素貝葉斯的基礎知識。本篇文章將在此基礎上進行擴充套件，你將看到以下內容：拉普拉

機器學習實戰教程（四）：樸素貝葉斯基礎篇之言論過濾器

word 最可 dog 一個 mac github上開課和數基礎上原文鏈接： Jack-Cui，https://cuijiahua.com/blog/2017/11/ml_4_bayes_1.html 一、前言樸素貝葉斯算法是有監督的學習算法，解決的是分類問題，

機器學習之（1）——學習樸素貝葉斯-三種模型理論+python程式碼程式設計例項

本文來源於：部落格：http://blog.csdn.net/u012162613/article/details/48323777 http://blog.csdn.net/zhihaoma/article/details/51052064 感謝作者的分享，非常感謝

資料探勘十大演算法——支援向量機SVM（一）：線性支援向量機

首先感謝“劉建平pinard”的淵博知識以及文中詳細準確的推導！！！本文轉自“劉建平pinard”，原網址為：http://www.cnblogs.com/pinard/p/6097604.html。支援向量機原理SVM系列文章共分為5部分：（一）線性支援向量機

資料探勘十大演算法之決策樹詳解（1）

在2006年12月召開的 IEEE 資料探勘國際會議上（ICDM， International Conference on Data Mining），與會的各位專家選出了當時的十大資料探勘演算法（ top 10 data mining algorithms ），

資料探勘十大演算法——支援向量機SVM（四）：SMO演算法原理

首先感謝“劉建平pinard”的淵博知識以及文中詳細準確的推導！！！支援向量機原理SVM系列文章共分為5部分：（一）線性支援向量機（二）線性支援向量機的軟間隔最大化模型（三）線性不可分支援向量機與核函式（四）SMO演算法原理（五）線性支援迴歸

資料探勘十大演算法（九）：樸素貝葉斯原理、例項與Python實現

一、條件概率的定義與貝葉斯公式

二、樸素貝葉斯分類演算法

三、例項

四、Python實現

參考：

相關推薦