機器學習之樸素貝葉斯分類器附C++程式碼

阿新 • • 發佈：2019-01-03

一、基本概念：

先驗概率(prior probability)：是指根據以往經驗和分析得到的概率，如全概率公式，它往往作為"由因求果"問題中的"因"出現的概率。比如，拋一枚硬幣，正面朝上的概率P(A)=1/2,就是先驗概率。
聯合概率：表示兩個事件共同發生的概率。A與B的聯合概率表示為 P(AB) 或者P(A,B),或者P（A∩B）。
條件概率：已知事件A發生的條件下事件B發生概率，條件概率表示為P(B|A)。

$P(B|A)=\frac{P(AB)}{P(A)}$

後驗概率：例如事件B₁、B₂、B₃等都會導致事件A發生。現在事件A已經發生，求事件A發生是由B₁、B₂、B₃那個事件引起的條件概率P(B_i|A),就是後驗概率。舉個在《概率論》中經常用到的例子，事件B

₁、B₂、B₃代表三個不同的工廠生產零件，事件A是生產次品的事件，P(A|Bi)是三個工廠的次品率。現在事件A發生了，判斷是由那個工廠生產的這個次品P(B_i|A)。

二、貝葉斯定理：

在現實生活中,我們可以很容易直接得出P(A|B_i)，而P(B_i|A)則很難直接得出，但我們更關心P(B_i|A)，貝葉斯定理實現了由P(A|B_i)計算P(B_i|A)的方法。

貝葉斯公式：

$P(B_{i}|A)=\frac{P(B_{i}A)}{P(A)}=\frac{P(A|B_{i})P(B_{i})}{P(A)}$

貝葉斯演算法的基礎是概率推理，是在各種條件的存在不確定、僅知其出現的概率情況下，完成推理和決策任務。而樸素貝葉斯模型(Naive Bayesian Model)是基於獨立假設的，即假設樣本的每一個特徵與其他特徵都不相關。

三、貝葉斯分類器基本原理

此時貝葉斯公式寫為：

$P(C_{i}|X)=\frac{P(C_{i}X)}{P(X)}=\frac{P(X|C_{i})P(C_{i})}{P(X)}$

訓練：

1. 設樣本集 $x=\left \{ X_{1},X_{2},X_{3},...X_{n} \right \}$ ，其中 $X_{i}=\left \{ a_{1}, a_{2},a_{3},...a_{k}\right \}$ 。所有類別集合 $Y=\left \{ C_{1},C_{2},C_{3},...C_{m} \right \}$ 。

2. 計算先驗概率P(C_i)。

3. 計算類條件密度：

$P(a_{1}|C_{1}),P(a_{2}|C_{1}),...P(a_{k}|C_{2});P(a_{1}|C_{2}),P(a_{2}|C_{2}),...P(a_{k}|C_{2});....P(a_{1}|C_{m}),P(a_{2}|C_{m}),...P(a_{k}|C_{m});$

測試：

1.設 $X=\left \{ a_{1},a_{2},a_{3},...a_{k} \right \}$ 為待分類項，而每個a_i為X的一個特徵屬性

2.計算

$P(X|C_{i})P(C_{i})=P(a_{1}|C_{i})P(a_{2}|C_{i})...P(a_{k}|C_{i})P(C_{i})=P(C_{i})\prod_{j=1}^{m}P(a_{j}|C_{i})$

3.根據貝葉斯定理求後驗概率P(C_i|X)，得到X屬於C_i類別的後驗概率；根據最大後驗概率判斷所屬類別。

P(C_α|X)=max{P(C_i|X)} $C_{\alpha }\in Y$ ，則測試樣本屬於C_α

四、舉例說明

如圖所示，為某電腦賣家統計的客戶資訊，有14個樣本(X_1,X_2,...X₁₄)，其中每個樣本有四個屬性，{a1(age),a2(income),a3(student),a4

(credit_rating)}。根據以上資訊，如果再給出一個客戶的這四種資訊，如{(<30),medium,no,fair},判斷他會不會買電腦。也是一個簡單的二分類問題。

為了便於表示，把年齡<=30、31—40、>40用Tw(Twenty)、Th(Thirty)、F(Forty)來表示。

訓練：

1. 設樣本集 $x=\left \{ X_{1},X_{2},X_{3},...X_{14} \right \}$ ，其中 $X_{i}=\left \{ a_{1}(age),a_{2}(income),a_{3}(student),a_{4}(credit_rating) \right \}$ 。所有類別集合

$Y=\left \{ C_{1}(no), C_{2}(yes)\right \}$ 。

2. 計算先驗概率P(C1)=5/14；P(C2)=9/14。

3. 計算類條件密度：

屬性a1：P(TwC1)=3/14；P(ThC1)=0/14；P(FC1)=2/14；P(TwC2)=2/14；P(ThC2)=4/14；P(FC2)=3/14；

  P(Tw|C1)=3/5；P(Th|C1)=0/5；P(F|C1)=2/5；P(Tw|C2)=2/9；P(Th|C2)=4/9；P(F|C2)=3/9；

屬性a2：P(HC1)=2/14；P(MC1)=2/14；P(LC1)=1/14；P(HC2)=2/14；P(MC2)=4/14；P(LC2)=3/14；

  P(H|C1)=2/5；P(M|C1)=2/5；P(L|C1)=1/5；P(H|C2)=2/9；P(M|C2)=4/9；P(L|C2)=3/9；

屬性a3：P(NC1)=4/14；P(YC1)=1/14；P(NC2)=3/14；P(YC2)=6/14；

  P(N|C1)=4/5；P(Y|C1)=1/5；P(N|C2)=3/9；P(Y|C2)=6/9；

屬性a4：P(FC1)=2/14；P(EC1)=3/14；P(FC2)=6/14；P(EC2)=3/14；

  P(F|C1)=2/5；P(E|C1)=3/5；P(F|C2)=6/9；P(E|C2)=3/9；

測試：

1.設X={(<30),medium,no,fair}為待分類項，

2.計算

$P(X|C_{i})P(C_{i})=P(a_{1}|C_{i})P(a_{2}|C_{i})...P(a_{k}|C_{i})P(C_{i})=P(C_{i})\prod_{j=1}^{m}P(a_{j}|C_{i})$

P(X|C1)P(C1)=P(a1|C1)*P(a2|C1)*P(a3|C1)*P(a4|C1)P(C1)

=P(Tw|C1)*P(M|C1)*P(N|C1)*P(F|C1)*P(C1)=(3/5)*(2/5)*(4/5)*(2/5)*(5/14)= 0.0274;

P(X|C2)P(C2)=P(a1|C2)*P(a2|C2)*P(a3|C2)*P(a4|C2)P(C2)

=P(Tw|C2)*P(M|C2)*P(N|C2)*P(F|C2)*P(C2)=(2/9)*(4/9)*(3/9)*(6/9)*(9/14)= 0.0141;

3.根據貝葉斯定理求後驗概率 $P(C_{i}|X)=\frac{P(C_{i}X)}{P(X)}=\frac{P(X|C_{i})P(C_{i})}{P(X)}$ ，得到X屬於C_i類別的後驗概率；根據最大後驗概率判斷所屬類別。

P(C_α|X)=max{P(C_i|X)} $C_{\alpha }\in Y$ ，則測試樣本屬於C_α

P(X|C1)P(C1)>P(X|C2)P(C2)==>P(C1|X)>P(C2|X),

所以，此人不買電腦的概率大。

五、程式

1.這裡只給出main函式部分，因為這個程式也是本人在網上下載別人的，可以驗證，程式執行結果與計算結果相同

地址：http://download.csdn.net/download/theone_jie/9464087

//樸素貝葉斯分類器程式
#include <cstdio>
#include <Windows.h>
#include "LBayesClassifier.h"

const int NUM =14;  //訓練樣本個數
const int Dim =4;   //訓練樣本的維數

int main()
{
    /*定義樣本矩陣
    每一行代表一個樣本
    第一列為age,第二列為income,第3列為student,第4列為credit_rating
    把個屬性進行了數字化,(<=30:20)、(31-40:30)、(>40:40)；
	(high:3)(medium:2)(low:1)；(no:0)(yes:1)；(fair:0)(excellent:1)
	*/
    int dataList[NUM*Dim] = 
	{   20,3,0,0,
		20,3,0,1,
		30,3,0,0,
		40,2,0,0,
		40,1,1,0,
		40,1,1,1,
		30,1,1,1,
		20,2,0,0,
		20,1,1,0,
		40,2,1,0,
		20,2,1,1,
		30,2,0,1,
		30,3,1,0,
		40,2,0,1}; 
    LBayesMatrix sampleMatrix(NUM, Dim, dataList);

    //定義樣本的類別向量(0:不買電腦；1:買電腦)
    int classList[NUM] = {0,0,1,1,1,0,1,0,1,1,1,1,1,0};
    LBayesMatrix classVector(NUM, 1, classList);

    //定義貝葉斯原始問題
    LBayesProblem problem(sampleMatrix, classVector, BAYES_FEATURE_CONTINUS);

    //定義貝葉斯分類器, 並且訓練
    LBayesClassifier classifier;
    classifier.TrainModel(problem);

    //輸入新樣本, 並預測新樣本的類別
    LBayesMatrix newSample(1, Dim);
    newSample[0][0] = 20; 
	newSample[0][1] = 2; 
	newSample[0][2] = 0;
    newSample[0][3] = 0;
    int predictValue ; 
    classifier.Predict(newSample, &predictValue);

    printf("%d\n", predictValue);
    system("pause");
    return 0;
}

2.最後在附加了opencv自帶的正態貝葉斯分類器

//opencv自帶正態貝葉斯分類器(Normal Bayes Classifier)
#include "opencv2/ml/ml.hpp"

using namespace std;  
using namespace cv;  
const int NUM=14;   //訓練樣本的個數
const int D=4;     //維度
//14個維數為4的訓練樣本集
double inputArr[NUM][D] =   
					{  20,3,0,0,
					   20,3,0,1,
					   30,3,0,0,
					   40,2,0,0,
					   40,1,1,0,
					   40,1,1,1,
					   30,1,1,1,
					   20,2,0,0,
					   20,1,1,0,
					   40,2,1,0,
					   20,2,1,1,
					   30,2,0,1,
					   30,3,1,0,
					   40,2,0,1};  
  
//一個測試樣本的特徵向量  
double testArr[]={20,3,0,0};  
  
int main()  
{  
    Mat trainData(NUM, D, CV_32FC1);//構建訓練樣本的特徵向量  
    for (int i=0; i<NUM; i++)  {  
        for (int j=0; j<D; j++)  {  
            trainData.at<float>(i, j) = inputArr[i][j+1];  
        }  
    }  
    Mat trainResponse=(Mat_<float>(NUM,1)<<
		0,0,1,1,1,0,1,0,1,1,1,1,1,0);//構建訓練樣本的類別標籤  
   
    CvNormalBayesClassifier Mybayes;  
    bool trainFlag = Mybayes.train(trainData, trainResponse);//進行貝葉斯分類器訓練  
    if (trainFlag)  {  
        cout<<"train over..."<<endl;  
        Mybayes.save("normalBayes.txt");  
    }  
    else  {  
        cout<<"train error..."<<endl;  
        system("pause");  
        exit(-1);  
    }  
    CvNormalBayesClassifier Tbayes;  
    Tbayes.load("normalBayes.txt");  
  
    Mat testSample(1, D, CV_32FC1);//構建測試樣本  
    for (int i=0; i<D; i++)  {  
        testSample.at<float>(0, i) = testArr[i];  
    }    
    float flag = Tbayes.predict(testSample);//進行測試  
    cout<<"flag = "<<flag<<endl;  
    system("pause");  
    return 0;  
}

本人能力有限，難免有出錯的地方。敬請賜教

更多資源：http://blog.csdn.net/lavorange/article/details/17841383

機器學習之樸素貝葉斯分類器附C++程式碼

一、基本概念：先驗概率(prior probability)：是指根據以往經驗和分析得到的概率，如全概率公式，它往往作為"由因求果"問題中的"因"出現的概率。比如，拋一枚硬幣，正面朝上的概率P(A)=1/2,就是先驗概率。聯合概率：表示兩個事件共同發生的概率。A與B的

機器學習之樸素貝葉斯分類器實現

問題如下比如：有如下的需求，要判斷某一句英語是不是侮辱性語句分析思路對於機器來說，可能不容易分辨出某一句話是不是侮辱性的句子，但是機器可以機械的進行分析，何為機械的進行分析，就是判斷某一個句子中侮辱性的單詞是不是達到一定數量（當然這

機器學習之樸素貝葉斯分類方法

本文轉載自http://holynull.leanote.com/post/Logistic-2 樸素貝葉斯分類方法前言樸素貝葉斯分類演算法是機器學習領域最基本的幾種演算法之一。但是對於作者這樣沒有什麼資料基礎的老碼農來說，理解起來確實有一些困難。所以撰寫此文幫

機器學習系列——樸素貝葉斯分類器（二）

表示 -h line log ima 條件 code 樸素貝葉斯 spa 貝葉斯定理：其中：表示事件B已經發生的前提下，事件A發生的概率，叫做事件B發生下事件A的條件概率。其基本求解公式為：。機器學習系列——樸素貝葉斯分類器（二）

sklearn庫學習之樸素貝葉斯分類器

樸素貝葉斯模型樸素貝葉斯模型的泛化能力比線性模型稍差，但它的訓練速度更快。它通過單獨檢視每個特徵來學習引數，並從每個特徵中收集簡單的類別統計資料。想要作出預測，需要將資料點與每個類別的統計資料進行比較，並將最匹配的類別作為預測結果。 GaussianNB應用於任意連續資料，

機器學習之多項式貝葉斯分類器multinomialNB

機器學習之多項式貝葉斯分類器multinomialNB # -*- coding: utf-8 -*- """ Created on Sun Nov 25 11:28:25 2018 @author: muli """ from sklearn import nai

機器學習：樸素貝葉斯分類器，決策函式向量化處理，mask使用技巧

文章目錄前面實現的樸素貝葉斯分類器，決策函式是非向量化的：藉助於numpy向量化處理，相當於平行計算，注意mask使用技巧，用途較廣：前面實現的樸素貝葉斯分類器，決策函式是非向量化的：前面提到過大資料處理，儘量避免個人的遍歷等一些函式

機器學習：樸素貝葉斯分類器程式碼實現，決策函式非向量化方式

文章目錄樸素貝葉斯離散型的演算法描述：程式碼實現：實現一個NaiveBayes的基類，以便擴充套件：實現離散型樸素貝葉斯MultiomialNB類：實現從檔案中讀取資料：測試資料：程式碼測試：

【機器學習】樸素貝葉斯分類器

前言：在正式講述樸素貝葉斯分類器之前，先介紹清楚兩個基本概念：判別學習方法(Discriminative Learning Algorithm)和生成學習方法(Generative Learning Algorithm)。上篇博文我們使用Logist

機器學習之樸素貝葉斯（附垃圾郵件分類）

樸素貝葉斯分類器介紹概述樸素貝葉斯分類器技術基於貝葉斯定理，特別適用於輸入維數較高的情況。儘管樸素貝葉斯方法簡單，但它通常比更復雜的分類方法更勝一籌。

機器學習之樸素貝葉斯(NB)分類演算法與Python實現

樸素貝葉斯（Naive Bayesian）是最為廣泛使用的分類方法，它以概率論為基礎，是基於貝葉斯定理和特徵條件獨立假設的分類方法。一、概述 1.1 簡介樸素貝葉斯（Naive Bayesian）是基於貝葉斯定理和特徵條件獨立假

【機器學習】--機器學習之樸素貝葉斯從初始到應用

rac AC 一個 pam 數據 ast 出現相對解決方法一、前述機器學習算法中，有種依據概率原則進行分類的樸素貝葉斯算法，正如氣象學家預測天氣一樣，樸素貝葉斯算法就是應用先前事件的有關數據來估計未來事件發生的概率。二、具體 1、背景--貝葉斯定理引入對於兩個關聯

機器學習之樸素貝葉斯(Naive Bayes)

貝葉斯概率以18世紀的一位神學家托馬斯·貝葉斯(Thomas Bayes)的名字命名。一、為什麼叫樸素貝葉斯？樸素貝葉斯是經典機器學習演算法之一，是基於概率論的分類演算法，其原理簡單，易於實現，多使用於文字分類，如垃圾郵件過濾、新聞分類等。樸素貝葉斯中的樸素是來源

機器學習之樸素貝葉斯演算法與程式碼實現

樸素貝葉斯演算法與程式碼實現演算法原理樸素貝葉斯是經典的機器學習演算法之一，也是為數不多的基於概率論的分類演算法。樸素貝葉斯原理簡單，也很容易實現，多用於文字分類，比如垃圾郵件過濾。該演算法的優點在於簡單易懂、學習效率高、在某些領

機器學習實戰——樸素貝葉斯分類

準備資料：從文字中構建詞向量前期測試函式用的資料 def loadDataSet(): '''建立一些實驗樣本''' postingList = [['my','dog','has','flea','problems','help','

機器學習之樸素貝葉斯模型及程式碼示例

一、樸素貝葉斯的推導樸素貝葉斯學習（naive Bayes）是一種有監督的學習，訓練時不僅要提供訓練樣本的特徵向量X，而且還需提供訓練樣本的實際標記Y，是一種基於貝葉斯定理和特徵條件獨立假設的分類方法。 1. 貝葉斯定理：貝葉斯定理：。對於分

生成式學習演算法（四）之----樸素貝葉斯分類器

樸素貝葉斯分類器（演算法）與樸素貝葉斯假設在高斯判別分析模型（GDA）中，特徵向量$ x$ 是連續實值向量。現在我們來討論分量$ x_j$ 取離散值的貝葉斯樸素貝葉斯模型。在文字分類問題中，有一個問題是分出一個郵件是（$y=1$ ）或者不是（$y=1$ ）垃圾郵件。我們的訓練資料集是一些標好是否是

機器學習筆記(七)貝葉斯分類器

7.貝葉斯分類器 7.1貝葉斯決策論貝葉斯決策論（Bayesiandecision theory）是概率框架下實施決策的基本方法。對分類任務來說，在所有相關概率都已知的理想情形下，貝葉斯決策論考慮如何基於這些概率和誤判損失來選擇最優的類別標記。這其實是關係到兩個基本概念：

Spark MLlib原始碼解讀之樸素貝葉斯分類器，NaiveBayes

Spark MLlib 樸素貝葉斯NaiveBayes 原始碼分析基本原理介紹首先是基本的條件概率求解的公式。 P(A|B)=P(AB)P(B) 在現實生活中，我們經常會碰到已知一個條件概率，求得兩個時間交換後的概率的問題。也就是在已知P(A

深度學習理論——樸素貝葉斯分類器

大家好，繼續理論學習，終於開始學習貝葉斯啦！本文主要參考周志華的西瓜書和眾多部落格加上自己的理解。拉普拉斯修正避免了因訓練集樣本不充分造成的概率估值為零的問題，並且在訓練集變大時，修正引入的先驗的影響也會減小，概率趨近於真實概率。貝葉斯應該還沒有完結，可能會有下一

機器學習之樸素貝葉斯分類器附C++程式碼

相關推薦