【機器學習實踐】用Python實現樸素貝葉斯分類器

阿新 • • 發佈：2018-12-21

閱讀學習了《機器學習》第7章的貝葉斯分類器後，為了加深理解和加強python的程式碼能力，因此嘗試使用Python實現樸素貝葉斯分類器，由於初學Python的緣故，程式碼的一些實現方法可能比較繁瑣，可閱讀性有待提高。程式碼如下：

#import numpy as np 
import math

def loadDataset () :
    #西瓜資料集2.0
    postingList=[['青綠', '蜷縮', '濁響', '清晰', '凹陷', '硬滑'],
                 ['烏黑', '蜷縮', '沉悶', '清晰', '凹陷', '硬滑'],
                 ['烏黑', '蜷縮', '濁響', '清晰', '凹陷', '硬滑'],
                 ['青綠', '蜷縮', '沉悶', '清晰', '凹陷', '硬滑'],
                 ['淺白', '蜷縮', '濁響', '清晰', '凹陷', '硬滑'],
                 ['青綠', '稍蜷', '濁響', '清晰', '稍凹', '軟粘'],
                 ['烏黑', '稍蜷', '濁響', '稍糊', '稍凹', '軟粘'],
                 ['烏黑', '稍蜷', '濁響', '清晰', '稍凹', '硬滑'],
                 ['烏黑', '稍蜷', '沉悶', '稍糊', '稍凹', '硬滑'],
                 ['青綠', '硬挺', '清脆', '清晰', '平坦', '軟粘'],
                 ['淺白', '硬挺', '清脆', '稍糊', '平坦', '硬滑'],
                 ['淺白', '蜷縮', '濁響', '模糊', '平坦', '軟粘'],
                 ['青綠', '稍蜷', '濁響', '稍糊', '凹陷', '硬滑'],
                 ['淺白', '稍蜷', '沉悶', '稍糊', '凹陷', '硬滑'],
                 ['烏黑', '稍蜷', '濁響', '清晰', '稍凹', '軟粘'],
                 ['淺白', '蜷縮', '濁響', '模糊', '平坦', '硬滑'],
                 ['青綠', '蜷縮', '沉悶', '稍糊', '稍凹', '硬滑']]
    classVec = [1,1,1,1,1,1,1,1,0,0,0,0,0,0,0]    #1表示好瓜, 0表示壞瓜
    return postingList, classVec

def extractInfo(dataset):
    #提取西瓜資料集2.0的資訊
    feature_num=[]                            #記錄每項屬性的全部屬性取值的數目
    feature_sort=[]                           #記錄每項屬性的全部的屬性取值
    
    for i in range(len(dataset[0])):
        temp=set(x[i] for x in dataset)       #一列代表一項屬性，取一項屬性
        feature_sort.append(list(temp))
        feature_num.append(len(temp))

    return feature_num, feature_sort

#訓練樸素貝葉斯分類器
def trainBYS(dataset, feature_num, feature_sort, classLabel):
    T_data=[]                                 #記錄好瓜的資料集
    F_data=[]                                 #記錄壞瓜的資料集
    sort_num=len(set(classLabel))             #類別的數目，如好瓜和壞瓜，只有兩個類別
    for i in range(len(classLabel)):          #將總資料集分類成好瓜資料集和壞瓜資料集
        if classLabel[i]==1:
            T_data.append(dataset[i])
        else:
            F_data.append(dataset[i])
            
    #計算加入拉普拉斯修正的先驗概率和似然概率
    Pc=(sum(classLabel) + 1) / (len(classLabel) + sort_num)   #樣本中好瓜的概率，即先驗概率
    p1num={}                                  #用於記錄好瓜資料集中各屬性取值的概率
    p0num={}                                  #用於記錄壞瓜資料集中各屬性取值的概率
    for i in range(len(feature_num)):         #統計資料，計算概率
        temp1=[x[i] for x in T_data]
        temp2=[x[i] for x in F_data]
        for sort_value in feature_sort[i]:    #初始化概率，加入了拉普拉斯修正
            if sort_value not in p1num.keys():
                p1num[sort_value] = 1 / (len(temp1) + feature_num[i])
            if sort_value not in p0num.keys():
                p0num[sort_value] = 1 / (len(temp2) + feature_num[i])
        
        for y in temp1:                       #統計正樣本的各屬性取值概率
            p1num[y]+= 1 / (len(temp1) + feature_num[i])
           
        for y in temp2:                       #統計負樣本的各屬性取值概率
            p0num[y]+= 1 / (len(temp2) + feature_num[i])

    return p0num,p1num,Pc

#對輸入的測試樣本進行計算比較後驗概率
def classifyBYS(inputdata, p0num, p1num, Pc, length):    
    input_length=len(inputdata)               
    sample_length=length
    if input_length != sample_length:
        print('輸入資料格式不對')
        return -1
    Pt=math.log(Pc)                           #避免連乘造成下溢，使用對數似然
    Pf=math.log(1-Pc)
    for x in inputdata:
        Pt += math.log(p1num.get(x))
        Pf += math.log(p0num.get(x))
    if Pt >= Pf:
        return 1
    else:
        return 0
    
    
#測試程式碼  
dataset, classLabel=loadDataset()
feature_num, feature_sort = extractInfo(dataset)
#print(feature_sort)
p0num, p1num, Pc = trainBYS(dataset, feature_num, feature_sort, classLabel)
#print(p1num)
inputdata = ['淺白', '稍蜷', '沉悶', '稍糊', '凹陷', '硬滑']
result=classifyBYS(inputdata, p0num, p1num, Pc, len(dataset[0]))
if result == 1:
    print('好瓜')
elif result == 0:
    print('壞瓜')

【機器學習實踐】用Python實現樸素貝葉斯分類器

閱讀學習了《機器學習》第7章的貝葉斯分類器後，為了加深理解和加強python的程式碼能力，因此嘗試使用Python實現樸素貝葉斯分類器，由於初學Python的緣故，程式碼的一些實現方法可能比較繁瑣，可閱讀性有待提高。程式碼如下： #import numpy a

機器學習及python實現——樸素貝葉斯分類器

問題引入考慮構建一個垃圾郵件分類器，通過給定的垃圾郵件和非垃圾郵件的資料集，通過機器學習構建一個預測一個新的郵件是否是垃圾郵件的分類器。郵件分類器是通常的文字分類器中的一種。樸素貝葉斯方法貝葉斯假設假設當前我們已經擁有了一批標識有是垃圾郵

機器學習筆記（五）：樸素貝葉斯分類器

一、概述 1.1 簡介樸素貝葉斯（Naive Bayesian）是基於貝葉斯定理和特徵條件獨立假設的分類方法，它通過特徵計算分類的概率，選取概率大的情況進行分類，因此它是基於概率論的一種機器學習分類方法。因為分類的目標是確定的，所以也是屬於監督學習。 Q1：什麼是基於概率論的方

Python實現樸素貝葉斯分類器

# -*-coding:utf-8-*- ''' 樸素貝葉斯演算法 ''' from __future__ import division global className className = "class" def calc_class(trai

【python資料探勘課程】二十一.樸素貝葉斯分類器詳解及中文文字輿情分析

這是《Python資料探勘課程》系列文章，也是我上課內容及書籍中的一個案例。本文主要講述樸素貝葉斯分類演算法並實現中文資料集的輿情分析案例，希望這篇文章對大家有所幫助，提供些思路。內容包括：1.樸素貝葉斯數學原理知識 2.naive_bayes用法及簡單案例 3.

機器學習知識點查漏補缺（樸素貝葉斯分類）

平滑 http 運算貝葉斯公式 -s 目標 bubuko 思想指數一、基本模型樸素貝葉斯分類模型的基本思想就是貝葉斯公式，對以特征為條件的各類別的後驗概率。貝葉斯公式如下：對標樸素貝葉斯分類模型的公式如下：分子中的第二項為每個類別的概率（實際運算即頻

周志華《機器學習》之第七章（貝葉斯分類器）概念總結

貝葉斯分類器是利用概率的知識完成資料的分類任務，在機器學習中使用貝葉斯決策論實施決策的基本方法也是在概率的框架下進行的，它是考慮如何基於這些概率和誤判損失來選擇最優的類別標記。 1、貝葉斯決策論條件風險：假設有N種可能的類別標記，Y={c1,c2,c3

Java實現樸素貝葉斯分類器

實驗描述: 對指定資料集進行分類問題的分析，選擇適當的分類演算法，編寫程式實現，提交程式和結果報告資料集： balance-scale.data（見附件一），已有資料集構建貝葉斯分類器。資料包括四個屬性：五個屬性值第一個屬性值表示樣本的類別號，其他四個屬性為四個不同

OpenCV實現樸素貝葉斯分類器診斷病情

貝葉斯定理由英國數學家托馬斯.貝葉斯（Thomas Baves）在1763提出，因此得名貝葉斯定理。貝葉斯定理也稱貝葉斯推理，是關於隨機事件的條件概率的一則定理。對於兩個事件A和B，事件A發生則B也

生成式學習演算法（四）之----樸素貝葉斯分類器

樸素貝葉斯分類器（演算法）與樸素貝葉斯假設在高斯判別分析模型（GDA）中，特徵向量$ x$ 是連續實值向量。現在我們來討論分量$ x_j$ 取離散值的貝葉斯樸素貝葉斯模型。在文字分類問題中，有一個問題是分出一個郵件是（$y=1$ ）或者不是（$y=1$ ）垃圾郵件。我們的訓練資料集是一些標好是否是

【機器學習算法-python實現】掃黃神器-樸素貝葉斯分類器的實現

機器學習實戰——python實現簡單的樸素貝葉斯分類器

【機器學習－西瓜書】七、樸素貝葉斯分類器

推薦閱讀：拉普拉斯修正 7.3樸素貝葉斯分類器關鍵詞：樸素貝葉斯；拉普拉斯修正上一小節我們知道貝葉斯分類器的分類依據是這公式：P(c∣x)=P(x,c)P(x)=P(c)⋅P(c∣x)P(x) ，對於每個樣本而言，分母P(x)=∑mi=1P(

用Python開始機器學習（6：樸素貝葉斯分類器）

樸素貝葉斯分類器是一個以貝葉斯定理為基礎，廣泛應用於情感分類領域的優美分類器。本文我們嘗試使用該分類器來解決上一篇文章中影評態度分類。1、貝葉斯定理假設對於某個資料集，隨機變數C表示樣本為C類的概率，F1表示測試樣本某特徵出現的概率，套用基本貝葉斯公式，則如下所示：上式表示對

【機器學習】樸素貝葉斯分類器

前言：在正式講述樸素貝葉斯分類器之前，先介紹清楚兩個基本概念：判別學習方法(Discriminative Learning Algorithm)和生成學習方法(Generative Learning Algorithm)。上篇博文我們使用Logist

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

groups group news ckey put epo test electron final 使用python3 學習樸素貝葉斯分類api 設計到字符串提取特征向量歡迎來到我的git下載源代碼: https://github.com/linyi0604/kag

機器學習：貝葉斯分類器（二）——高斯樸素貝葉斯分類器代碼實現

mod ces 數據大於等於即使平均值方差很多 mode 一高斯樸素貝葉斯分類器代碼實現網上搜索不調用sklearn實現的樸素貝葉斯分類器基本很少，即使有也是結合文本分類的多項式或伯努利類型，因此自己寫了一遍能直接封裝的高斯類型NB分類器，當然與真正的源碼相

機器學習：樸素貝葉斯分類器程式碼實現，決策函式非向量化方式

文章目錄樸素貝葉斯離散型的演算法描述：程式碼實現：實現一個NaiveBayes的基類，以便擴充套件：實現離散型樸素貝葉斯MultiomialNB類：實現從檔案中讀取資料：測試資料：程式碼測試：

機器學習之樸素貝葉斯分類器實現

問題如下比如：有如下的需求，要判斷某一句英語是不是侮辱性語句分析思路對於機器來說，可能不容易分辨出某一句話是不是侮辱性的句子，但是機器可以機械的進行分析，何為機械的進行分析，就是判斷某一個句子中侮辱性的單詞是不是達到一定數量（當然這

python機器學習庫sklearn——樸素貝葉斯分類器

在scikit-learn中，一共有3個樸素貝葉斯的分類演算法類。分別是GaussianNB，MultinomialNB和BernoulliNB。其中GaussianNB就是先驗為高斯分佈的樸素貝葉斯，MultinomialNB就是先驗為多項式分佈的樸素

【機器學習實踐】用Python實現樸素貝葉斯分類器

相關推薦