《機器學習實戰》筆記（三）：樸素貝葉斯

阿新 • • 發佈：2018-11-21

4.1 基於貝葉斯決策理論的分類方法

在這裡插入圖片描述
樸素貝葉斯是貝葉斯決策理論的一部分，貝葉斯決策理論的的核心思想，即選擇具有最高概率的決策。若p1(x,y)和p2(x,y)分別代表資料點(x,y)屬於類別1,2的概率，則判斷新資料點(x,y)屬於哪一類別的規則是：

4.3 使用條件概率來分類

在實際問題中，我們真正需要計算和比較的是 $p (c_{1}$

∣ x , y ) p(c_1|x,y)

p (c_{1} ∣ x, y)

和

p(c_2|x,y)

。這些符號代表的意思是：資料點（x,y）來自c1和c2的概略分別是多少。其中，
在這裡插入圖片描述

4.4 使用樸素貝葉斯進行文件分類

在這裡插入圖片描述

4.5 使用python進行文字分類

文字的特徵來自文字的詞條（token），一個詞條可以使單詞，url或其他任意字元。將每一個文字片段表示為一個詞條向量，其中1表示詞條出現在文件中，0表示詞條未出現。
以線上社群的留言板為例。為了不影響社群的發展，因此要遮蔽侮辱性言論，所以要構建一個過濾器。當留言使用了侮辱性言論，則將留言標識為內容不當。對此問題建立兩個類別：侮辱類和非侮辱類，使用1和0表示。

4.5.1 準備資料：從文字中構建詞向量

在此步，我們要將句子轉化為向量。考慮文件中出現的所有單詞，整合成詞彙表，然後將每一篇文件轉換為詞彙表上的向量。首先，建立檔案bayes.py，新增程式。

import numpy as np
# 4-1 詞表到向量的轉換函式
# 建立實驗資料集
def loadDataSet():
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1] # 1代表侮辱性文字 0 代表正常言論 類別標籤的集合
    return postingList,classVec

# 根據實驗資料集，生成詞彙表
def createVocabList(dataSet):
    vocabSet = set([]) # 建立空集
    for document in dataSet:
        vocabSet = vocabSet | set(document) # 集合去重，合併兩個集合
    return list(vocabSet) # 返回詞彙表

# 輸入引數：詞彙表及某個文件 輸出：文件向量
def setOfWord2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList) # 建立一個所含元素都為0的向量
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!") % word
    return returnVec

listOPosts, listClasses = loadDataSet()
myVocabList = createVocabList(listOPosts)
print(myVocabList)
print(setOfWord2Vec(myVocabList, listOPosts[0]))

假設文字已切分完，存放於列表中。函式loadDataSet()建立了一些實驗樣本，其將返回實驗資料集和類別標籤的集合。createVocabList()將會建立一個包含postingList出現的不重複詞的列表，獲得詞彙表後，便可以使用函式setOfWords2Vec()，該函式的輸入引數為詞彙表及某個文件，輸出的是文件向量，向量的每一元素為1或0，分別表示詞彙表中的單詞在輸入文件中是否出現。
程式執行結果：
在這裡插入圖片描述

4.5.2 訓練演算法：從詞向量計算概率

前面我們將一組單詞轉換為一組數字，接下來我們用這些數字計算概率。設w表示一個向量，它由多個數值組成，數值個數與詞彙表中的詞個數相同。
在這裡插入圖片描述
使用上述公式計算一條留言屬於類別1或0的概率，然後比較兩個值的大小，即可判斷某條留言的類別。其中
$p(w|c_i)=\frac{類別i中文件數（侮辱性或非侮辱性留言數）}{總的文件數（總留言數）}$
計算 $p(w|c_i)=p(w_0,w_1,..,w_n|c_i)$ ,這裡假設 $w_0,w_1,..,w_n$ 相互獨立，則
$p(w|c_i)=p(w_0|c_i)p(w_1|c_i)p(w_2|c_i)..p(w_n|c_i)$
則程式4-2程式碼如下：

def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix) # 訓練文件數
    numWords = len(trainMatrix[0]) # 總詞數
    pAbusive = sum(trainCategory)/float(numTrainDocs) # 計算文件屬於侮辱性文件的概率
    p0Num = np.zeros(numWords)
    p1Num = np.zeros(numWords)
  
    p0Denom = 0.0; p1Denom = 0.0

    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = p1Num/p1Denom # 對每個元素做除法
    p0Vect = p0Num/p0Denom
    return p0Vect,p1Vect,pAbusive
listOPosts, listClasses = loadDataSet()
myVocabList = createVocabList(listOPosts)
print(myVocabList)

trainMat = []
# 構建訓練矩陣
for postinDoc in listOPosts:
    trainMat.append(setOfWord2Vec(myVocabList, postinDoc))
p0V, p1V, pAb = trainNB0(trainMat, listClasses)
print("p0V:\n", p0V)
print("p1v:\n", p1V)
print("pAb:", pAb)

執行程式，結果如下：
在這裡插入圖片描述
其中cute在第四個位置，其只在類別0中出現一次，對應條件概率分別為0.0.4166667和0.0。

4.5.3 測試演算法：修改分類器

因為 $p(w|c_i)=p(w_0,w_1,..,w_n|c_i)$ 若其中一個概率值為0，最後乘積為0，所以將所有詞出現次數初始化為1，並將分母初始化為2。
在這裡插入圖片描述
由於大部分因子都非常小，很可能經四捨五入後得到0，所以對乘積取自然對數。所以修改return前兩行程式碼：

構建分類函式，新增到bayes.py檔案中，

# 程式4-3 樸素貝葉斯分類函式
'''
輸入：要分類的向量vec2Classify，使用trainNB0()計算得到的三個概率
'''
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1) # 元素相乘
    p0 = sum(vec2Classify * p0Vec) + np.log(1 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0

def testingNB():
    listOPosts, listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat = []
    for postinDoc in listOPosts:
        trainMat.append(setOfWord2Vec(myVocabList, postinDoc))
    p0V,p1V,pAb = trainNB0(np.array(trainMat),np.array(listClasses))
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = np.array(setOfWord2Vec(myVocabList, testEntry))
    print(testEntry, "classified as:", classifyNB(thisDoc,p0V, p1V, pAb))
    testEntry = ['stupid', 'garbage']
    thisDoc = np.array(setOfWord2Vec(myVocabList, testEntry))
    print(testEntry, "classified as:", classifyNB(thisDoc, p0V, p1V, pAb))
testingNB()

執行程式：
在這裡插入圖片描述

4.5.4 準備資料：文件詞袋模型

上述程式中，我們使用了詞集模型（set-of-words model），即每個詞的出現與否作為一個特徵。
**詞袋模型（bag-of-words model）**中，每個單詞可以出現多次，因此將詞集模型程式碼修改為詞袋模型的程式碼：

# 詞袋模型
def bagOfWord2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)  # 建立一個所含元素都為0的向量
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec

4.6 示例：使用樸素貝葉斯過濾垃圾郵件

在這裡插入圖片描述
程式碼例項：

#coding=utf-8
_date_ = '2018/11/20 20:01'
_author_ = 'Cxy'
# 郵件過濾例項
import numpy as np
import random
# 根據實驗資料集，生成詞彙表
def createVocabList(dataSet):
    vocabSet = set([]) # 建立空集
    for document in dataSet:
        vocabSet = vocabSet | set(document) # 集合去重，合併兩個集合
    return list(vocabSet) # 返回詞彙表

# 詞集模型 輸入引數：詞彙表及某個文件 輸出：文件向量
def setOfWord2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList) # 建立一個所含元素都為0的向量
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!") % word
    return returnVec

# 詞袋模型
def bagOfWord2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)  # 建立一個所含元素都為0的向量

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    機器學習實戰教程（五）：樸素貝葉斯實戰篇之新浪新聞分類
      原文連結： Jack-Cui，https://cuijiahua.com/blog/2017/11/ml_5_bayes_2.html 
 
一、前言 
上篇文章機器學習實戰教程（四）：樸素貝葉斯基礎篇之言論過濾器講解了樸素貝葉斯的基礎知識。本篇文章將在此基礎上進行擴充套件，你將看到以下內容： 
 
 拉普拉 

  
 

    

    
    機器學習實戰教程（四）：樸素貝葉斯基礎篇之言論過濾器
      word   最可   dog   一個   mac   github上   開課   和數   基礎上   原文鏈接： Jack-Cui，https://cuijiahua.com/blog/2017/11/ml_4_bayes_1.html

一、前言
樸素貝葉斯算法是有監督的學習算法，解決的是分類問題， 

  
 

    

    
    《機器學習實戰》筆記（三）：樸素貝葉斯
       
  
  
 4.1 基於貝葉斯決策理論的分類方法 
  樸素貝葉斯是貝葉斯決策理論的一部分，貝葉斯決策理論的的核心思想，即選擇具有最高概率的決策。若p1(x,y)和p2(x,y)分別代表資料點(x,y)屬於類別1,2的概率，則判斷新資料點(x,y)屬於哪一類別的規則是：  
 4.3 使用條件概率來分類 

  
 

    

    
    機器學習回顧篇（5）：樸素貝葉斯演算法
      1 引言
說到樸素貝葉斯演算法，很自然地就會想到貝葉斯概率公式，這是我們在高中的時候就學過的只是，沒錯，這也真是樸素貝葉斯演算法的核心，今天我們也從貝葉斯概率公式開始，全面擼一擼樸素貝葉斯演算法。
2 貝葉斯概率公式
2.1 聯合概率與全概率公式
定義1：完備事件組
${A_1} \cup {A_2 

  
 

    

    
    機器學習實戰讀書筆記（四）：樸素貝葉斯演算法
      
                樸素貝葉斯
優點: 在資料較少的情況下仍然有效 可以處理多類別問題
缺點：對輸入的資料的準備方式較為敏感
適用資料型別：標稱型資料
p1(x,y)>p2(x,y) 那麼類別是1
p2(x,y)>p1(x,y) 那麼類別是2
貝葉斯決策的核心是選擇具有最高概率的決策 

  
 

    

    
    Python3《機器學習實戰》學習筆記（五）：樸素貝葉斯實戰篇之新浪新聞分類
      
							
							
							






一 前言




拉普拉斯平滑
垃圾郵件過濾
新浪新聞分類






二 樸素貝葉斯改進之拉普拉斯平滑

上篇文章提到過，演算法存在一定的問題，需要進行改進。那麼需要改進的地方在哪裡呢？利用貝葉斯分類器對文件進行分類時，要計算多個概率的乘積以獲得 

  
 

    

    
    機器學習筆記（五）：樸素貝葉斯分類器
       
  
  
 一、概述 
 1.1 簡介 
 樸素貝葉斯（Naive Bayesian）是基於貝葉斯定理和特徵條件獨立假設的分類方法，它通過特徵計算分類的概率，選取概率大的情況進行分類，因此它是基於概率論的一種機器學習分類方法。因為分類的目標是確定的，所以也是屬於監督學習。 
 Q1：什麼是基於概率論的方 

  
 

    

    
    學習筆記（七）：樸素貝葉斯在Web安全中的六個應用
       
 
 一、檢測Web異常操作 
        1.資料蒐集：一樣 
        2.特徵化 
             使用詞集模型，統計全部操作命令，去重後形 

  
 

    

    
    機器學習實戰教程（三）：決策樹實戰篇之為自己配個隱形眼鏡
      原文連結：cuijiahua.com/blog/2017/1… 


 
 

 
一、前言 
上篇文章機器學習實戰教程（二）：決策樹基礎篇之讓我們從相親說起講述了機器學習決策樹的原理，以及如何選擇最優特徵作為分類特徵。本篇文章將在此基礎上進行介紹。主要包括： 
 
 決策樹構建 
 決策樹視覺化 
 使用決 

  
 

    

    
    tensorflow深度學習實戰筆記（三）：使用tensorflow lite把訓練好的模型移植到手機端，編譯成apk檔案
      
                目錄

















tensorflow深度學習實戰筆記（二）：把訓練好的模型進行固化，講解了如何固化模型以及把pb模型轉換為tflite模型，現在講解如何用官方的demo把生成的ttlite模型移植到手機端。

一、準備工作

1.1模型訓練



1. 

  
 

    

    
    機器學習實戰（三）——NaiveBayes樸素貝葉斯演算法郵件分類
      
							
							
							樸素貝葉斯分類的原理是條件概率的計算： 
在已知先驗概率的條件下，計算後驗概率，後驗概率即是在當前資料條件下屬於分類1或者分類2 的概率，取概率較大的一個為輸出。 
貝葉斯準則很熟悉了，不解釋了，但在這個演算法中引入了一個很重要的思想：將文字等資料物件轉化為向量 

  
 

    

    
    機器學習筆記（五）續——樸素貝葉斯演算法的後驗概率最大化含義
      
							
							
							　　上一節中講了樸素貝葉斯演算法將例項分到後驗概率最大的類。這等價於期望風險最小化。

假設使用0-1損失函式： 
 L(Y,f(X))={1,0,Y≠f(X)Y=f(X)

上式中的f(x)是分類決策函式， 這時，期望風險函式是： 
Rexp(f)=E[L(Y 

  
 

    

    
    機器學習筆記（2）——使用樸素貝葉斯演算法過濾（中英文）垃圾郵件
      
                在上一篇文章《使用樸素貝葉斯演算法對文件分類詳解》中，我們實現了用樸素貝葉斯演算法對簡單文件的分類，今天我們將利用此分類器來過濾垃圾郵件。

1. 準備資料——文字切分

之前演算法中輸入的文件格式為單詞向量，例如['my', 'dog', 'has', 'flea', 'p 

  
 

    

    
    機器學習實戰中，第四章樸素貝葉斯，過濾垃圾郵件，正則表示式切分郵件內容得出字母的問題解決方法
      
                原文中的程式碼：listOfTokens = re.split(r'\W*', bigString)



修改為：listOfTokens = re.split(r'\W+', bigString)            
                
         

  
 

    

    
    資料探勘十大演算法（九）：樸素貝葉斯 python和sklearn實現
      
                第三個演算法終於算是稍有了解了，其實當你結合資料瞭解了它的實現原理後，你會發現確實很樸素。這裡對樸素貝葉斯演算法做一個介紹和總結，包括（原理、一個程式碼示例、sklearn實現），皆為親自實踐後的感悟，下面進入正文。

原理：

首先我們需要了解概率論的一些簡單知識：



 

  
 

    

    
    資料探勘十大演算法（九）：樸素貝葉斯原理、例項與Python實現
      
                一、條件概率的定義與貝葉斯公式



二、樸素貝葉斯分類演算法

樸素貝葉斯是一種有監督的分類演算法，可以進行二分類，或者多分類。一個數據集例項如下圖所示：



現在有一個新的樣本， X = (年齡：<=30, 收入：中， 是否學生：是， 信譽：中)，目標是利用樸素貝 

  
 

    

    
    機器學習實戰教程（一）：線性回歸基礎篇（上）
      學習   reg   style   spa   目標   pub   auto   機器   輸入   
一 什麽是回歸？
　　回歸的目的是預測數值型的目標值，最直接的辦法是依據輸入，寫入一個目標值的計算公式。
 
　　假如你想預測小姐姐男友汽車的功率，可能會這麽計算：
 
　　　　　　　　　　　　　　Ho 

  
 

    

    
    機器學習讀書筆記（三）決策樹基礎篇之從相親說起
      方法   事務   家裏   分類   筆記   判斷   都是   rom   tro    
 
一、決策樹
 決策樹是什麽？決策樹(decision tree)是一種基本的分類與回歸方法。舉個通俗易懂的例子，如下圖所示的流程圖就是一個決策樹，長方形代表判斷模塊(decision block)，橢圓形成代 

  
 

    

    
    機器學習速成筆記（二）： 訓練與損失
       
 
 訓練模型通過有標籤樣本來學習（確定）所有的權重和偏差的理想值。 
 損失是對槽糕預測的懲罰，損失是一個數值，模型的預測完全正確，則損失為零，反之，模型的預測越槽糕，損失越大。 
 平方損失：一種常見的損失函式，線性迴歸模型就是使用該平方損失 
 均方誤差：每個樣本的平均平方損失，計算均方誤差，要算出 

  
 

    

    
    機器學習速成筆記（一）： 主要術語
       
 
 機器學習研究如何通過計算的方式，利用資料集來改善系統自身的效能。 
 而深度學習是屬於機器學習的一個子分支。 
 機器學習的通用的兩種型別： 
 
  無監督學習：事先並沒有任務訓練資料的樣本，需要直接對資料進行建模型。 
  監督學習：通過已經有的訓練樣本（即輸入資訊和對應的輸出）來訓練，得到一個

《機器學習實戰》筆記（三）：樸素貝葉斯

4.1 基於貝葉斯決策理論的分類方法

4.3 使用條件概率來分類

4.4 使用樸素貝葉斯進行文件分類

4.5 使用python進行文字分類

4.5.1 準備資料：從文字中構建詞向量

4.5.2 訓練演算法：從詞向量計算概率

4.5.3 測試演算法：修改分類器

4.5.4 準備資料：文件詞袋模型

4.6 示例：使用樸素貝葉斯過濾垃圾郵件

機器學習實戰教程（五）：樸素貝葉斯實戰篇之新浪新聞分類

機器學習實戰教程（四）：樸素貝葉斯基礎篇之言論過濾器

《機器學習實戰》筆記（三）：樸素貝葉斯

機器學習回顧篇（5）：樸素貝葉斯演算法

機器學習實戰讀書筆記（四）：樸素貝葉斯演算法

Python3《機器學習實戰》學習筆記（五）：樸素貝葉斯實戰篇之新浪新聞分類

機器學習筆記（五）：樸素貝葉斯分類器

學習筆記（七）：樸素貝葉斯在Web安全中的六個應用

機器學習實戰教程（三）：決策樹實戰篇之為自己配個隱形眼鏡

tensorflow深度學習實戰筆記（三）：使用tensorflow lite把訓練好的模型移植到手機端，編譯成apk檔案

機器學習實戰（三）——NaiveBayes樸素貝葉斯演算法郵件分類

機器學習筆記（五）續——樸素貝葉斯演算法的後驗概率最大化含義

機器學習筆記（2）——使用樸素貝葉斯演算法過濾（中英文）垃圾郵件

機器學習實戰中，第四章樸素貝葉斯，過濾垃圾郵件，正則表示式切分郵件內容得出字母的問題解決方法

資料探勘十大演算法（九）：樸素貝葉斯 python和sklearn實現

資料探勘十大演算法（九）：樸素貝葉斯原理、例項與Python實現

機器學習實戰教程（一）：線性回歸基礎篇（上）

機器學習讀書筆記（三）決策樹基礎篇之從相親說起

機器學習速成筆記（二）：訓練與損失

機器學習速成筆記（一）：主要術語