貝葉斯分類器原理和應用

阿新 • • 發佈：2018-11-25

利用 sklearn 貝葉斯分類器對 IRIS 資料集分類

貝葉斯分類的基本思想一言以蔽之“將樣本歸為其後驗概率最大的那個類”。

具體原理參考: http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html

sklearn 工具包中對根據樣本的分佈特性對樸素貝葉斯分類器進行了實現，分為以下幾個具體情況：

樸素貝葉斯-高斯模型
樸素貝葉斯-多項式模型
樸素貝葉斯-伯努利模型

參考官方文件：http://sklearn.lzjqsdd.com/modules/naive_bayes.html

其中，高斯模型應用最普遍，本文呼叫 sklearn 工具包中樸素貝葉斯-高斯模型分類器（GaussianNB）對 IRIS 進行分類。

嚴格來講首先應該進行假設檢驗，判斷樣本是否符合高斯分佈。在這裡將這一步驟省略，以分佈直方圖的形式直觀展現樣本的分佈特徵。

from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
import numpy as np
from matplotlib import pyplot as plt
from matplotlib.ticker import PercentFormatter

if 
 __name__ == '__main__':
  
    iris = datasets.load_iris() 
    print(type(iris), dir(iris))

    x = iris.get('data')
    y = iris.get('target')

    # show attributes histogram
    c = np.unique(y)
    ind = []
    ind.append(y==c[0])
    ind.append(y==c[1])
    ind.append(y==c[2])
    bin_num = 40 

    fig, axes = plt.subplots(len(c),4)
    for i, ax in enumerate(axes.flat):
        ind_ = ind[i//4]
        j = i%4
        ax.hist(x[ind_,j], bins=bin_num)

    axes[0,0].set_ylabel("y = 0")
    axes[1,0].set_ylabel("y = 1")
    axes[2,0].set_ylabel("y = 2")
    axes[0,0].set_title("attribute 0")
    axes[0,1].set_title("attribute 1")
    axes[0,2].set_title("attribute 2")
    axes[0,3].set_title("attribute 3")
    plt.show()

在這裡插入圖片描述

從分佈直方圖看出，樣本資料的分佈呈現單峰特性，近似服從高斯分佈。

下面對資料集進行劃分，分類和測試。

 # 隨機劃分訓練集和測試集
    num = x.shape[0] # 樣本總數
    ratio = 7/3 # 劃分比例，訓練集數目:測試集數目
    num_test = int(num/(1+ratio)) # 測試集樣本數目
    num_train = num -  num_test # 訓練集樣本數目
    index = np.arange(num) # 產生樣本標號
    np.random.shuffle(index) # 洗牌
    x_test = x[index[:num_test],:] # 取出洗牌後前 num_test 作為測試集
    y_test = y[index[:num_test]]
    x_train = x[index[num_test:],:] # 剩餘作為訓練集
    y_train = y[index[num_test:]]

    gnb = GaussianNB()
    gnb.fit(x_train, y_train)
    y_test_pre = gnb.predict(x_test)

    # 計算分類準確率
    acc = sum(y_test_pre==y_test)/num_test
    print('The accuracy is', acc) # 顯示預測準確率

分類結果顯示：

The accuracy is 0.9111111111111111

貝葉斯分類器原理和應用

利用 sklearn 貝葉斯分類器對 IRIS 資料集分類貝葉斯分類的基本思想一言以蔽之“將樣本歸為其後驗概率最大的那個類”。具體原理參考: http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-clas

樸素貝葉斯分類器原理與應用、EM演算法原理及例項

文章目錄貝葉斯定理與概率論中相關概念屬性條件獨立性假設樸素貝葉斯分類器樸素貝葉斯分類器公式離散屬性與連續屬性值的分別處理樸素貝葉斯分類器例項拉普拉斯修正樸素貝葉斯分類器的應用：貝葉斯垃圾郵件

理解貝葉斯分類器原理及關係

作者：vicky_siyu 致謝：小龍快跑jly, 巧兒、克力,Esther_or so,雨佳小和尚本文是對貝葉斯分類器的初步理解，通過案例解釋貝葉斯並對貝葉斯分類器的關係進一步分析和理解。本文只是在學習後進行了總結並加入了自己的理解，如有不妥之處，還望海涵，也希望大家多多指教，一起學

貝葉斯分類器(Python實現+詳細完整原始碼和原理)

在概率和統計學領域，貝葉斯理論基於對某一事件證據的認識來預測該事件的發生概率，由結果推測原因的概率大小首先，理解這個公式的前提是理解條件概率，因此先複習條件概率。 P(A|B)=P(AB)/P(B) 貝葉斯公式：在機器學習領域，貝葉斯分類器是基於貝葉斯

樸素貝葉斯分類器的應用 Naive Bayes classifier

upload dia get 等號分布 eat 實現維基 5.5 一、病人分類的例子讓我從一個例子開始講起，你會看到貝葉斯分類器很好懂，一點都不難。某個醫院早上收了六個門診病人，如下表。　　癥狀　　職業　　　疾病　　打噴嚏　護士　　　感冒　　打噴嚏

機器學習----貝葉斯分類器（貝葉斯決策論和極大似然估計）

貝葉斯決策論貝葉斯決策論（Bayesian decision theory）是概率框架下實施決策的基本方法。在所有相關概率都已知的理想情況下，貝葉斯決策論考慮如何基於這些概率和誤判斷來選擇最優的類別標記。假設有N種可能的類別標記，即Y={c1,c2,.

情感分析方法之snownlp和貝葉斯分類器（三）

《情感分析方法之nltk情感分析器和SVM分類器（二）》主要使用nltk處理英文語料，使用SVM分類器處理中文語料。實際的新聞評論中既包含英文，又包含中文和阿拉伯文。本次主要使用snownlp處理中文語料。一、snownlp使用from snownlp import Snow

社交平臺輿情分析專案的總結和感想（SELENIUM,NLTK,貝葉斯分類器）(一)

前一段時間做了一個社交平臺(比如新浪微博，騰訊微博)上面話題的評論採集和分析的專案，具體技術用到了selenium和python的nltk庫。首先是資料採集，這裡沒有使用這些平臺的開放API，而是用

貝葉斯分類器，隨機森林，梯度下載森林，神經網絡相關參數的意義和data leakage

就是抽取子集 width height 特征 rap 貝葉斯分類器技術分享構建的每一顆樹的數據都是有放回的隨機抽取的（也叫bootstrap),n_estimators參數是你想設置多少顆樹，還有就是在進行樹的結點

我對貝葉斯分類器的理解

log enter roman 高斯 clas http style 理解 times 我們能夠得到其統計概率密度例如以下：這樣我們就知道該概率密度曲線大致符合正態分布。例如以下圖所看到的大概能夠看出它在中心非常集中，邊

機器學習：貝葉斯分類器

貝葉斯逆向檢測 .net 極大似然估計 href ref .com blank 參考文獻從貝葉斯定理說開去關鍵詞：逆向概率；先驗概率；後驗概率我所理解的貝葉斯定理--知乎專欄關鍵詞：醫院病癥檢測中的真假陽性似然與極大似然估計--知乎專欄關鍵詞：似然與概率的區

機器學習系列——樸素貝葉斯分類器（二）

表示 -h line log ima 條件 code 樸素貝葉斯 spa 貝葉斯定理：其中：表示事件B已經發生的前提下，事件A發生的概率，叫做事件B發生下事件A的條件概率。其基本求解公式為：。機器學習系列——樸素貝葉斯分類器（二）

貝葉斯分類器理論基礎

似然數學 style 模式 class 決策基礎 post clas 貝葉斯分類器是一個相當寬泛的定義，它背後的數學理論根基是相當出名的貝葉斯決策論。貝葉斯學派貝葉斯決策論是在概率框架下進行決策的基本方法之一，更是統計模式識別的主要方法之一。貝葉斯學派與頻率學派

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

groups group news ckey put epo test electron final 使用python3 學習樸素貝葉斯分類api 設計到字符串提取特征向量歡迎來到我的git下載源代碼: https://github.com/linyi0604/kag

機器學習：貝葉斯分類器（二）——高斯樸素貝葉斯分類器代碼實現

mod ces 數據大於等於即使平均值方差很多 mode 一高斯樸素貝葉斯分類器代碼實現網上搜索不調用sklearn實現的樸素貝葉斯分類器基本很少，即使有也是結合文本分類的多項式或伯努利類型，因此自己寫了一遍能直接封裝的高斯類型NB分類器，當然與真正的源碼相

機器學習---樸素貝葉斯分類器（Machine Learning Naive Bayes Classifier）

垃圾郵件垃圾 bubuko 自己整理 href 極值 multi 帶來樸素貝葉斯分類器是一組簡單快速的分類算法。網上已經有很多文章介紹，比如這篇寫得比較好：https://blog.csdn.net/sinat_36246371/article/details/601

sklearn庫學習之樸素貝葉斯分類器

樸素貝葉斯模型樸素貝葉斯模型的泛化能力比線性模型稍差，但它的訓練速度更快。它通過單獨檢視每個特徵來學習引數，並從每個特徵中收集簡單的類別統計資料。想要作出預測，需要將資料點與每個類別的統計資料進行比較，並將最匹配的類別作為預測結果。 GaussianNB應用於任意連續資料，

機器學習筆記——貝葉斯分類器

一，貝葉斯最優分類器期望損失（條件風險）：假設有N種可能的類別標記，即y = {c1,c2,...,cN}，λij是將一個真實標記為cj的樣本誤分類為ci所產生的損失。將樣本x分類ci所產生的期望損失為：我們的任務是尋找一個假設h，以最小化總體風險：貝葉斯判定準則：為最

《機器學習》周志華學習筆記第七章貝葉斯分類器（課後習題）python 實現

課後習題答案 1.試用極大似然法估算西瓜集3.0中前3個屬性的類條件概率。好瓜有8個，壞瓜有9個屬性色澤，根蒂，敲聲，因為是離散屬性，根據公式（7.17） P(色澤=青綠|好瓜=是) = 3/8 P(色澤=烏黑|好瓜=是) = 4/8 P(色澤=淺白|好瓜=是) =

基於樸素貝葉斯分類器的 20-news-group分類及結果對比(Python3)

之前看了很多CSDN文章，很多都是根據stack overflow 或者一些英文網站的照搬。導致我看了一整天最後一點收穫都沒有。這個作業也借鑑了很多外文網站的幫助但是是基於自己理解寫的，算是一個學習筆記吧。環境是python3(海外留學原因作業是英文的，渣英語見諒吧）程式碼最後附上。 M

貝葉斯分類器原理和應用

利用 sklearn 貝葉斯分類器對 IRIS 資料集分類

相關推薦