機器學習實戰：樸素貝葉斯--學習筆記

阿新 • • 發佈：2018-12-16

一、工作原理

我們用 p1(x,y) 表示資料點 (x,y) 屬於類別 1的概率，用 p2(x,y) 表示資料點 (x,y) 屬於類別 2的概率;

那麼對於一個新資料點 (x,y)，可以用下面的規則來判斷它的類別：

如果 p1(x,y) > p2(x,y) ，那麼類別為1
如果 p2(x,y) > p1(x,y) ，那麼類別為2

關鍵則在於計算資料點屬於不同類別的概率，再取概率最大的概率對應的類別作為預測類別

二、例項程式碼(python 3)

1. 過濾網站惡意留言

from 
 numpy import *
#過濾網站的惡意留言
# 建立一個實驗樣本
def loadDataSet():
    postingList = [['my','dog','has','flea','problems','help','please'],
                   ['maybe','not','take','him','to','dog','park','stupid'],
                   ['my','dalmation','is','so','cute','I','love','him'],
                   ['stop' 
,'posting','stupid','worthless','garbage'],
                   ['mr','licks','ate','my','steak','how','to','stop','him'],
                   ['quit','buying','worthless','dog','food','stupid']]
    classVec = [0,1,0,1,0,1]
    return postingList, classVec

# 建立一個包含在所有文件中出現的不重複詞的列表
def createVocabList(dataSet) 
:
    vocabSet = set([])      #建立一個空集
    for document in dataSet:
        vocabSet = vocabSet | set(document)   #建立兩個集合的並集
    return list(vocabSet)

#將文件詞條轉換成詞向量
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)        #建立一個其中所含元素都為0的向量
    for word in inputSet:
        if word in vocabList:
            #returnVec[vocabList.index(word)] = 1     #index函式在字串裡找到字元第一次出現的位置  詞集模型
            returnVec[vocabList.index(word)] += 1      #文件的詞袋模型    每個單詞可以出現多次
        else: print('the word: %s is not in my vocabulary' % word)
    return returnVec


if __name__ == '__main__':
    postingList, classVec = loadDataSet()
    print('postingList:\n',postingList)
    myVocabList = createVocabList(postingList)
    print('myVocabList:\n',myVocabList)
    trainMat = []
    for postinDoc in postingList:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    print('trainMat:\n', trainMat)

依據給定詞得出分類結果

from numpy import *
import numpy as np
#過濾網站的惡意留言
# 建立一個實驗樣本
def loadDataSet():
    postingList = [['my','dog','has','flea','problems','help','please'],
                   ['maybe','not','take','him','to','dog','park','stupid'],
                   ['my','dalmation','is','so','cute','I','love','him'],
                   ['stop','posting','stupid','worthless','garbage'],
                   ['mr','licks','ate','my','steak','how','to','stop','him'],
                   ['quit','buying','worthless','dog','food','stupid']]
    classVec = [0,1,0,1,0,1]
    return postingList, classVec

# 建立一個包含在所有文件中出現的不重複詞的列表
def createVocabList(dataSet):
    vocabSet = set([])      #建立一個空集
    for document in dataSet:
        vocabSet = vocabSet | set(document)   #建立兩個集合的並集
    return list(vocabSet)

#將文件詞條轉換成詞向量
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)        #建立一個其中所含元素都為0的向量
    for word in inputSet:
        if word in vocabList:
            #returnVec[vocabList.index(word)] = 1     #index函式在字串裡找到字元第一次出現的位置  詞集模型
            returnVec[vocabList.index(word)] += 1      #文件的詞袋模型    每個單詞可以出現多次
        else: print('the word: %s is not in my vocabulary' % word)
    return returnVec



def train_naive_bayes(train_mat, train_category):
    """
    樸素貝葉斯分類修正版，　注意和原來的對比，為什麼這麼做可以檢視書
    :param train_mat:  type is ndarray
                    總的輸入文字，大致是 [[0,1,0,1], [], []]
    :param train_category: 檔案對應的類別分類， [0, 1, 0],
                            列表的長度應該等於上面那個輸入文字的長度
    :return: 
    """
    train_doc_num = len(train_mat)
    words_num = len(train_mat[0])
    # 因為侮辱性的被標記為了1， 所以只要把他們相加就可以得到侮辱性的有多少
    # 侮辱性檔案的出現概率，即train_category中所有的1的個數，
    # 代表的就是多少個侮辱性檔案，與檔案的總數相除就得到了侮辱性檔案的出現概率
    pos_abusive = np.sum(train_category) / train_doc_num
    # 單詞出現的次數
    # 原版，變成ones是修改版，這是為了防止數字過小溢位
    # p0num = np.zeros(words_num)
    # p1num = np.zeros(words_num)
    p0num = np.ones(words_num)
    p1num = np.ones(words_num)
    # 整個資料集單詞出現的次數（原來是0，後面改成2了）
    p0num_all = 2.0
    p1num_all = 2.0

    for i in range(train_doc_num):
        # 遍歷所有的檔案，如果是侮辱性檔案，就計算此侮辱性檔案中出現的侮辱性單詞的個數
        if train_category[i] == 1:
            p1num += train_mat[i]
            p1num_all += np.sum(train_mat[i])
        else:
            p0num += train_mat[i]
            p0num_all += np.sum(train_mat[i])
    # 後面改成取 log 函式
    p1vec = np.log(p1num / p1num_all)
    p0vec = np.log(p0num / p0num_all)
    return p0vec, p1vec, pos_abusive

def classify_naive_bayes(vec2classify, p0vec, p1vec, p_class1):
    """
    使用演算法：
        # 將乘法轉換為加法
        乘法：P(C|F1F2...Fn) = P(F1F2...Fn|C)P(C)/P(F1F2...Fn)
        加法：P(F1|C)*P(F2|C)....P(Fn|C)P(C) -> log(P(F1|C))+log(P(F2|C))+....+log(P(Fn|C))+log(P(C))
    :param vec2classify: 待測資料[0,1,1,1,1...]，即要分類的向量
    :param p0vec: 類別0，即正常文件的[log(P(F1|C0)),log(P(F2|C0)),log(P(F3|C0)),log(P(F4|C0)),log(P(F5|C0))....]列表
    :param p1vec: 類別1，即侮辱性文件的[log(P(F1|C1)),log(P(F2|C1)),log(P(F3|C1)),log(P(F4|C1)),log(P(F5|C1))....]列表
    :param p_class1: 類別1，侮辱性檔案的出現概率
    :return: 類別1 or 0
    """
    # 計算公式  log(P(F1|C))+log(P(F2|C))+....+log(P(Fn|C))+log(P(C))
    # 使用 NumPy 陣列來計算兩個向量相乘的結果，這裡的相乘是指對應元素相乘，即先將兩個向量中的第一個元素相乘，然後將第2個元素相乘，以此類推。
    # 我的理解是：這裡的 vec2Classify * p1Vec 的意思就是將每個詞與其對應的概率相關聯起來
    # 可以理解為 1.單詞在詞彙表中的條件下，檔案是good 類別的概率 也可以理解為 2.在整個空間下，檔案既在詞彙表中又是good類別的概率
    p1 = np.sum(vec2classify * p1vec) + np.log(p_class1)
    p0 = np.sum(vec2classify * p0vec) + np.log(1 - p_class1)
    if p1 > p0:
        return 1
    else:
        return 0


if __name__ == '__main__':
    """
    測試樸素貝葉斯演算法
    :return: no return 
    """
    # 1. 載入資料集
    list_post, list_classes = loadDataSet()
    # 2. 建立單詞集合
    vocab_list = createVocabList(list_post)

    # 3. 計算單詞是否出現並建立資料矩陣
    train_mat = []
    for post_in in list_post:
        train_mat.append(
            # 返回m*len(vocab_list)的矩陣， 記錄的都是0，1資訊
            # 其實就是那個東西的句子向量（就是data_set裡面每一行,也不算句子吧)
            setOfWords2Vec(vocab_list, post_in)
        )
    # 4. 訓練資料
    p0v, p1v, p_abusive = train_naive_bayes(np.array(train_mat), np.array(list_classes))
    # 5. 測試資料
    test_one = ['love', 'my', 'dalmation']
    test_one_doc = np.array(setOfWords2Vec(vocab_list, test_one))
    print('the result is: {}'.format(classify_naive_bayes(test_one_doc, p0v, p1v, p_abusive)))
    test_two = ['stupid', 'garbage']
    test_two_doc = np.array(setOfWords2Vec(vocab_list, test_two))
    print('the result is: {}'.format(classify_naive_bayes(test_two_doc, p0v, p1v, p_abusive)))

三、參考資料

機器學習實戰：樸素貝葉斯--學習筆記

一、工作原理我們用 p1(x,y) 表示資料點 (x,y) 屬於類別 1的概率，用 p2(x,y) 表示資料點 (x,y) 屬於類別 2的概率; 那麼對於一個新資料點 (x,y)，可以用下面的規則來判斷它的類別：如果 p1(x,y)

【機器學習實戰】樸素貝葉斯

一.概述二.理論基礎三.文件分類四.垃圾郵件過濾五.從個人廣告中獲取區域傾向六.程式碼問題總結七.總結一、概述貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。本章首先介紹貝葉斯分類演算法的基礎——

機器學習實戰之樸素貝葉斯

問題1 來源：使用樸素貝葉斯過濾垃圾郵件描述：spamTest()和textParse()讀檔案時編譯通不過報錯：UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 199: illegal

【python】機器學習實戰之樸素貝葉斯分類

一，引言　　前兩章的KNN分類演算法和決策樹分類演算法最終都是預測出例項的確定的分類結果，但是，有時候分類器會產生錯誤結果；本章要學的樸素貝葉斯分類演算法則是給出一個最優的猜測結果，同時給出猜測的概率估計值。 1 準備知識：條件概率公式相信學過概率論的同學對於概

機器學習實戰之樸素貝葉斯_程式碼註釋

#-*- coding: UTF-8 -*- from numpy import * def loadDataSet():#建立包含文件的訓練集和各文件對應的標籤列表 postinglist = [['my','dog','has','flea','problems',

《統計學習方法》-樸素貝葉斯法筆記和python原始碼

樸素貝葉斯法樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。對於給定的訓練資料集，首先基於特徵條件獨立假設學習輸入/輸出的聯合概率分佈；然後基於此模型，對給定的輸入x，利用貝葉斯定理求出後驗概率最大的輸出y。換句話說，在已知條件概率和先驗概率的情況下（即，在事

《機器學習實戰》筆記（三）：樸素貝葉斯

4.1 基於貝葉斯決策理論的分類方法樸素貝葉斯是貝葉斯決策理論的一部分，貝葉斯決策理論的的核心思想，即選擇具有最高概率的決策。若p1(x,y)和p2(x,y)分別代表資料點(x,y)屬於類別1,2的概率，則判斷新資料點(x,y)屬於哪一類別的規則是： 4.3 使用條件概率來分類

機器學習實戰——基於概率論的分類方法：樸素貝葉斯（二）

使用貝葉斯過濾垃圾郵件 1.準備資料：切分文字將字串切分為詞列表時，倘若沒有split引數，則標點符號也會被當成詞的一部分，可以使用正則表示式來切分句子，其中分隔符是除了單詞，數字之外的任意字串

機器學習實戰讀書筆記（四）：樸素貝葉斯演算法

樸素貝葉斯優點: 在資料較少的情況下仍然有效可以處理多類別問題缺點：對輸入的資料的準備方式較為敏感適用資料型別：標稱型資料 p1(x,y)>p2(x,y) 那麼類別是1 p2(x,y)>p1(x,y) 那麼類別是2 貝葉斯決策的核心是選擇具有最高概率的決策

【機器學習實戰—第4章：基於概率論的分類方法：樸素貝葉斯】程式碼報錯（python3）

1、報錯：UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xae in position 199: illegal multibyte sequence 原因：這是檔案編碼的問題，檔案中有非法的多位元組字元。解決辦法：開啟Ch04\

Python3《機器學習實戰》學習筆記（五）：樸素貝葉斯實戰篇之新浪新聞分類

一前言拉普拉斯平滑垃圾郵件過濾新浪新聞分類二樸素貝葉斯改進之拉普拉斯平滑上篇文章提到過，演算法存在一定的問題，需要進行改進。那麼需要改進的地方在哪裡呢？利用貝葉斯分類器對文件進行分類時，要計算多個概率的乘積以獲得

《機器學習實戰》學習筆記：樸素貝葉斯分類演算法

貝葉斯決策理論選擇高概率對應的類別是貝葉斯決策理論的核心思想，即選擇具有最高概率的決策。樸素貝葉斯樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型（Nai

機器學習實戰教程（五）：樸素貝葉斯實戰篇之新浪新聞分類

原文連結： Jack-Cui，https://cuijiahua.com/blog/2017/11/ml_5_bayes_2.html 一、前言上篇文章機器學習實戰教程（四）：樸素貝葉斯基礎篇之言論過濾器講解了樸素貝葉斯的基礎知識。本篇文章將在此基礎上進行擴充套件，你將看到以下內容：拉普拉

機器學習實戰教程（四）：樸素貝葉斯基礎篇之言論過濾器

word 最可 dog 一個 mac github上開課和數基礎上原文鏈接： Jack-Cui，https://cuijiahua.com/blog/2017/11/ml_4_bayes_1.html 一、前言樸素貝葉斯算法是有監督的學習算法，解決的是分類問題，

機器學習筆記（五）：樸素貝葉斯分類器

一、概述 1.1 簡介樸素貝葉斯（Naive Bayesian）是基於貝葉斯定理和特徵條件獨立假設的分類方法，它通過特徵計算分類的概率，選取概率大的情況進行分類，因此它是基於概率論的一種機器學習分類方法。因為分類的目標是確定的，所以也是屬於監督學習。 Q1：什麼是基於概率論的方

機器學習(3):基於概率論的分類方法：樸素貝葉斯

概述優點：在資料較少的情況下仍然有效，可以處理多類別問題。缺點：對於輸入資料的準備方式較為敏感。使用資料型別：標稱型資料。貝葉斯決策理論的核心思想：選擇具有最高概率的決策。使用條件概率來分類對於某個資料點x,y：如果，那麼屬於類別如果，那麼屬於類

機器學習：樸素貝葉斯分類器，決策函式向量化處理，mask使用技巧

文章目錄前面實現的樸素貝葉斯分類器，決策函式是非向量化的：藉助於numpy向量化處理，相當於平行計算，注意mask使用技巧，用途較廣：前面實現的樸素貝葉斯分類器，決策函式是非向量化的：前面提到過大資料處理，儘量避免個人的遍歷等一些函式

機器學習：樸素貝葉斯分類器程式碼實現，決策函式非向量化方式

文章目錄樸素貝葉斯離散型的演算法描述：程式碼實現：實現一個NaiveBayes的基類，以便擴充套件：實現離散型樸素貝葉斯MultiomialNB類：實現從檔案中讀取資料：測試資料：程式碼測試：

sklearn的機器學習之路：樸素貝葉斯

1. 基礎概念什麼是樸素貝葉斯：貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單，也是常見的一種分類方法。貝葉斯公式

用PHP實現機器學習：樸素貝葉斯演算法

$classifier = new Classifier(); $classifier->learn('Symfony is the best', Type::POSITIVE); $classifier->learn('PhpStorm is great', Type::POSITIVE);

機器學習實戰：樸素貝葉斯--學習筆記

一、工作原理

二、例項程式碼(python 3)

1. 過濾網站惡意留言

依據給定詞得出分類結果

三、參考資料

相關推薦