機器學習實戰——python實現簡單的樸素貝葉斯分類器

阿新 • • 發佈：2018-12-31

基礎公式

貝葉斯定理：P(A|B) = P(B|A)*P(A)/P(B)
假設B1,B2…Bn彼此獨立，則有：P(B1xB2x…xBn|A) = P(B1|A)xP(B2|A)x…xP(Bn|A)

資料（虛構）

A1 A2 A3 A4 A5 B
1  1  1  1  3  no
1  1  1  2  2  soft
1  1  2  1  3  no
1  1  2  2  1  hard
1  2  1  1  2  no
1  2  1  2  3  soft
1  2  2  1  1  no
1  2  2  2  2  hard
2  1  1  1  3  no
2 
  1  1  2  3  soft
2  1  2  1  1  no
2  1  2  2  1  hard
2  2  1  1  2  no
2  2  1  2  3  soft
2  2  2  1  2  soft
2  2  2  2  2  hard
3  1  1  1  1  no
3  1  1  2  2  soft
3  1  2  1  1  no
3  1  2  2  1  hard
3  2  1  1  3  soft
3  2  1  2  1  soft
3  2  2  1  2  no
3  2  2  2  3  no

五個features，一個label

演算法步驟

1.根據訓練集計算概率：
（1）計算：
P(B="hard")，P(B="soft")，P(B="no")
（2）計算:
P(A1="1"|B="hard"),P(A1="2"|B="hard"),P(A1="3"|B="hard");
P(A2="1"|B="hard"),P(A2="2"|B="hard"),...

P(A1="1"|B="soft"),P(A1="2"|B="soft"),P(A1="3"|B="soft");
P(A2="1"|B="soft"),P(A2="2"|B="soft"),...

P(A1="1"|B="no"),P(A1="2" 
|B="no"),P(A1="3"|B="no");
P(A2="1"|B="no"),P(A2="2"|B="no"),...

2.按照貝葉斯定理計算測試資料分類的概率：
計算：P(B="hard"|test_A) ,  P(B="soft"|test_A) ,  P(B="no"|test_A) 
概率最大的類別，就是樸素貝葉斯分類器得到的分類結果。

程式碼實現

def train(dataSet,labels):

    uniqueLabels = set(labels)
    res = {}
    for label in uniqueLabels:
        res[label] = []
        res[label].append(labels.count(label)/float(len(labels)))
        for i in range(len(dataSet[0])-1):
            tempCols = [l[i] for l in dataSet if l[-1]==label]#獲取Ai的值
            uniqueValues = set(tempCols)
            dict = {}
            for value in uniqueValues:
                count = tempCols.count(value)
                prob = count/float(labels.count(label))#計算P(A|B)
                dict[value] = prob  
            res[label].append(dict)

    return res


def test(testVect,probMat):
    hard = probMat['hard']
    soft = probMat['soft']
    no = probMat['no']
    phard = hard[0]
    psoft = soft[0]
    pno = no[0]
    for i in range(len(testVect)):
        if testVect[i] in hard[i+1]:
            phard *= hard[i+1][testVect[i]]
        else:
            phard = 0

        if testVect[i] in soft[i + 1]:
            psoft *= soft[i + 1][testVect[i]]
        else:
            psoft = 0

        if testVect[i] in no[i + 1]:
            pno *= no[i + 1][testVect[i]]
        else:
            pno = 0
    res['hard'] = phard
    res['soft'] = psoft
    res['no'] = pno
    print phard, psoft, pno
    return max(res, key=res.get)

獲取資料

def loadDataSet(filename):
    fr = open(filename)
    arrayOLines = fr.readlines()
    returnMat = []
    labels = []
    for line in arrayOLines:
        line = line.strip()
        listFromLine = line.split('  ')
        labels.append(listFromLine[-1])
        returnMat.append(listFromLine)
    return returnMat,labels

根據訓練集計算概率

這裡的res返回的是儲存上述演算法步驟1中描述的所有概率值的字典。字典結構如下：

{'hard': [P(B="hard"), {'1': P(A1="1"|B="hard"), '2': P(A1="2"|B="hard"), '3': P(A1="3"|B="hard")}, {'1': P(A2="1"|B="hard"), '2': P(A2="2"|B="hard")}, {'1': P(A3="1"|B="hard"),'2':P(A3="2"|B="hard")}, {'1': P(A4="1"|B="hard"),'2':P(A4="2"|B="hard")}, {'1': P(A5="1"|B="hard"), '2': P(A5="2"|B="hard"), '3': P(A5="3"|B="hard")}], 

'soft': [P(B="soft"),  {'1': P(A1="1"|B="soft"), '2': P(A1="2"|B="soft"), '3': P(A1="3"|B="soft")}, {'1': P(A2="1"|B="soft"), '2': P(A2="2"|B="soft")}, {'1': P(A3="1"|B="soft"),'2':P(A3="2"|B="soft")}, {'1': P(A4="1"|B="soft"),'2':P(A4="2"|B="soft")}, {'1': P(A5="1"|B="soft"), '2': P(A5="2"|B="soft"), '3': P(A5="3"|B="soft")}], 

'no': [P(B="no"),  {'1': P(A1="1"|B="no"), '2': P(A1="2"|B="no"), '3': P(A1="3"|B="no")}, {'1': P(A2="1"|B="no"), '2': P(A2="2"|B="no")}, {'1': P(A3="1"|B="no"),'2':P(A3="2"|B="no")}, {'1': P(A4="1"|B="no"),'2':P(A4="2"|B="no")}, {'1': P(A5="1"|B="no"), '2': P(A5="2"|B="no"), '3': P(A5="3"|B="no")}]}

其中，若概率為0，則字典裡不包含該鍵值對。

計算測試樣本的分類概率

測試結果

dataSet , labels = loadDataSet("dataset.txt")
probMat = train(dataSet,labels)

res = test(['3','1','2','2','1'],probMat)
print res

執行結果

機器學習實戰第四章——樸素貝葉斯分類(原始碼解析)

樸素貝葉斯分類 #coding=utf-8 ''' Created on 2016年1月9日 @author: admin ''' from numpy import * # 載入資料集函式 def loadDataSet(): # 定義郵件列表 p

機器學習實戰（三）樸素貝葉斯NB（Naive Bayes）

目錄 0. 前言 1. 條件概率 2. 樸素貝葉斯（Naive Bayes） 3. 樸素貝葉斯應用於文字分類 4. 實戰案例 4.1. 垃圾郵件分類案例學習完機器學習實戰的樸素貝葉斯，簡單的做個筆記。文中

機器學習實戰讀書筆記(3)--樸素貝葉斯

基於貝葉斯決策理論的分類方法優點:在資料較少的情況下仍然有效,可以處理多類別問題缺點:對輸入資料的準備方式比較敏感,需要標稱資料.確定貝葉斯最優假設的計算代價較大樸素貝葉斯是貝葉斯決策理論的一部分.貝葉斯決策理論的核心思想:一個數據集包括2類(或兩類以上

<機器學習實戰>讀書筆記--樸素貝葉斯

1.樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法，最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型（Naive Bayesian Model，NBM） 2.樸素貝葉斯公式 P(B|A)的意思是在A事件的情況下，發生B事件的概率。 3.樸素貝

《機器學習實戰》之四——樸素貝葉斯

這裡寫自定義目錄標題《機器學習實戰》之四——樸素貝葉斯一. 數學部分二. 準備資料階段三. NB訓練函式針對演算法部分的改進四. NB分類函式五. 測試NB分類函式六. 使用樸素貝葉斯進行垃

機器學習實戰（4）——樸素貝葉斯（下）

一、大概框架1、貝葉斯決策：對某個資料點進行分類，有多個類別供你選擇，我們自然要選擇可能性最大那個，這就是貝葉斯決策的核心思想舉個例子：如果你面前有一個黑人，讓你判斷他是哪個洲的人，給你三個選擇：亞洲人、非洲人、美洲人，你會選擇哪個？哈哈哈，這麼簡單的問題，你居然還問的出口，

機器學習（十二）樸素貝葉斯分類

樸素貝葉斯分類作者：hjimce 本篇博文是我學習《機器學習實戰》這邊書時候的學習筆記。記得之前看到這個演算法名的時候，我以為很難，因為我不是很喜歡概率論的知識，其實最主要的原因是因為已經概率論的相關知識都忘光了，所以一直不想去複習，於是就覺得這個演算法不好學。不

機器學習-帶你搞懂樸素貝葉斯分類演算法

帶你搞懂樸素貝葉斯分類演算法你搞懂樸素貝葉斯分類算貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單，也是常見的一種分類方法。這篇文章我儘可能用直白的話語總結一下我們學習會上講到的樸素貝葉斯分

機器學習筆記（六）：貝葉斯分類器

機器學習所研究的主要內容，是關於在計算機上從資料中產生“模型”的演算法，這個產生的模型大體上可以分為“判別式模型”和“生成式模型”兩大類。其中判別式模型是給定x，通過直接對條件概率分佈P（y|x）進行建模來預測y。這種方法尋找不同類別的最優分類面，反映的是異類資料之間的差異。之前幾篇文章中介紹

機器學習演算法筆記之4：貝葉斯分類器

一、貝葉斯分類器詳解貝葉斯分類器是一類分類演算法的總稱，這類演算法均以貝葉斯定理為理論基礎。貝葉斯分類器的分類原理是通過先驗概率，利用貝葉斯公式計算出後驗概率，選擇最大後驗概率所對應的分類結果。貝葉斯準則其中，P(c)是先驗概率，P(x|c)樣本x相對於；類標記c的類

【原創】.NET平臺機器學習元件-Infer.NET連載(二)貝葉斯分類器

關於本文件的說明　　本文件基於Infer.NET 2.6對Infer.NET User Guide進行中文翻譯，但進行了若干簡化和提煉，按照原網站的思路進行，但不侷限與其順序。　　歡迎傳播分享，必須保持原作者的資訊，但禁止將該文件直接用於商業盈利。　　本人正在研究基於Infer.NET元件，並

機器學習實戰——python實現簡單的樸素貝葉斯分類器

【機器學習實踐】用Python實現樸素貝葉斯分類器

閱讀學習了《機器學習》第7章的貝葉斯分類器後，為了加深理解和加強python的程式碼能力，因此嘗試使用Python實現樸素貝葉斯分類器，由於初學Python的緣故，程式碼的一些實現方法可能比較繁瑣，可閱讀性有待提高。程式碼如下： #import numpy a

機器學習及python實現——樸素貝葉斯分類器

問題引入考慮構建一個垃圾郵件分類器，通過給定的垃圾郵件和非垃圾郵件的資料集，通過機器學習構建一個預測一個新的郵件是否是垃圾郵件的分類器。郵件分類器是通常的文字分類器中的一種。樸素貝葉斯方法貝葉斯假設假設當前我們已經擁有了一批標識有是垃圾郵

機器學習筆記（一）樸素貝葉斯的Python程式碼實現

上研究生的時候，一心想讀生物資訊學的方向，由此也選修了生物數學，計算生物學等相關課程。給我印象最深的是給我們計算生物學的主講老師，他北大數學系畢業，後來做起了生物和數學的交叉學科研究。課上講的一些演算法比如貝葉斯，馬爾科夫，EM等把我給深深折磨了一遍。由於那時候

【機器學習算法-python實現】掃黃神器-樸素貝葉斯分類器的實現

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

groups group news ckey put epo test electron final 使用python3 學習樸素貝葉斯分類api 設計到字符串提取特征向量歡迎來到我的git下載源代碼: https://github.com/linyi0604/kag

機器學習：貝葉斯分類器（二）——高斯樸素貝葉斯分類器代碼實現

mod ces 數據大於等於即使平均值方差很多 mode 一高斯樸素貝葉斯分類器代碼實現網上搜索不調用sklearn實現的樸素貝葉斯分類器基本很少，即使有也是結合文本分類的多項式或伯努利類型，因此自己寫了一遍能直接封裝的高斯類型NB分類器，當然與真正的源碼相

機器學習：樸素貝葉斯分類器程式碼實現，決策函式非向量化方式

文章目錄樸素貝葉斯離散型的演算法描述：程式碼實現：實現一個NaiveBayes的基類，以便擴充套件：實現離散型樸素貝葉斯MultiomialNB類：實現從檔案中讀取資料：測試資料：程式碼測試：

機器學習之樸素貝葉斯分類器實現

問題如下比如：有如下的需求，要判斷某一句英語是不是侮辱性語句分析思路對於機器來說，可能不容易分辨出某一句話是不是侮辱性的句子，但是機器可以機械的進行分析，何為機械的進行分析，就是判斷某一個句子中侮辱性的單詞是不是達到一定數量（當然這

機器學習實戰——python實現簡單的樸素貝葉斯分類器

基礎公式

資料（虛構）

演算法步驟

程式碼實現

獲取資料

根據訓練集計算概率

計算測試樣本的分類概率

測試結果

相關推薦