Python實現樸素貝葉斯(NB)

阿新 • • 發佈：2019-01-05

這篇文章主要關於樸素貝葉斯演算法的用python具體實現，網上關於NB演算法的文章很多，大多圍繞著《機器學習實戰》這本書來著。在此，對於NB演算法的原理我大概介紹一下。

貝葉斯定理：

已知某條件概率，如何得到兩個條件交換後的概率。即：已知求

假設 A,B獨立 P(A,B)=P(A)*P(B)

樸素貝葉斯原理：

對於給定的待分類像項，求解在此基礎上每個類別出現的概率，最大的即作為最終分類的類別。

步驟：

1、設為待分類項，ai為每個待分類屬性

2、類別集合為

3、計算的概率

4、取第3步驟概率值最大的為待分類項的類別。

具體實現步驟：

把上述第3步驟轉化成求每個特徵的條件概率。

。

因為最終考慮的是在每個類別中概率值的大小，所以去掉除數x，不影響最終分類結果。

1、即轉化成

2、假設各個特徵相互獨立，則

========================================================

程式碼：

1、首先實現計算每個類別的概率

2、計算每個特徵在不同類下的條件概率（每個特徵出現的次數/類別下特徵的總個數）

3、計算

4.判斷大小

具體程式碼如下：

# -*- coding: utf-8 -*-
import numpy as np
import glob    
def load_data():
    text=[]
    y=[1,0,1,1,1,0,1]
    with open('e:/a/ceshi.txt','r',encoding='utf-8') as infile:
        for line in infile:
            line=line.strip()
            text.append(line)   
    return text,y

def cteat_dit(alltext):
    term_dict={}
    for doc in alltext:
        for term in doc.split():
            term_dict[term]=1
    term_dict=dict(zip(term_dict.keys(),range(len(term_dict)) ))
    return term_dict
def  get_vec(term_dict,input_data):
    #將詞彙轉化成向量，簡單的詞袋模型
    vec=[0]*len(term_dict)
    for i in input_data.split():
        if i in term_dict:
            vec[term_dict[i]]=1
    return vec

def train_NB(text,y,term_dict):
    #===================================================
    #1.  計算y的概率
    
    class_set=sorted(list(set(y)))
    class_dict=dict(zip(class_set,range(len(class_set))))
   # print(class_dict){0: 0, 1: 1}
    class_prob=[0]*len(class_dict)
    class_count=[0]*len(class_dict)
    for i in y:
        class_count[class_dict[i]]+=1
    class_prob=[i/len(y) for i in class_count]
    #==================================================
    # 2. 計算每個詞在不同類別下出現的次數 
    term_calss_df=np.zeros((len(term_dict),len(class_dict)))  
    
    for i in  range(len(y)):
        class_index=class_dict[y[i]]
        for term in text[i].split():#針對每一個文件
            term_index=term_dict[term]
            term_calss_df[term_index][class_index]+=1
    tf=term_calss_df
    #避免某一個概率值為0,所有詞出現數+1
    tfg=tf+1
    sumh=np.sum(tf,axis=0)
    prob=tfg/sumh
    
    
    return prob,class_prob
def classifyNB(test,prob,class_prob,term_dict):
    '''
    分類函式
    '''
    datavec=[]
    for line in test:
        vec=get_vec(term_dict,line)
        datavec.append(vec)  
    #===================================================
    prob=np.log(prob)#避免下溢，不影響最終分類結果
    class_result=[]
    for i in datavec:
        
        i=np.array(i)
        i=i.reshape(-1,1)
        C_prob=prob*i
        print('############')
        all_prob=np.sum(C_prob,0)+np.log(class_prob)
        class_result.append(all_prob)
    return class_result
        
        
#=========================
#載入測試集

def load():
    text=[]
    with open('e:/a/1.txt','r',encoding='utf-8') as infile:
        for line in infile:
            line=line.strip()
            text.append(line)
    return text

def testNB():
    
    text, y=load_data()
    term_dict=cteat_dit(text)
    
    prob,class_prob =train_NB(text,y,term_dict)
    test=load()
    class_result=classifyNB(test,prob,class_prob,term_dict)
    for all_prob in class_result:
        if all_prob[1] >all_prob[0]:
            print('1') #分類結果
        else: 
            print('0') 
            
if __name__=='__main__':
    
    testNB()

Python實現樸素貝葉斯(NB)

這篇文章主要關於樸素貝葉斯演算法的用python具體實現，網上關於NB演算法的文章很多，大多圍繞著《機器學習實戰》這本書來著。在此，對於NB演算法的原理我大概介紹一下。貝葉斯定理：已知某條件概率，如何得到兩個條件交換後的概率。即：已知求假設

Python 實現樸素貝葉斯 MNIST資料集

Python實現樸素貝葉斯演算法樸素貝葉斯是機器學習的一種演算法，之所以成為樸素，是因為它的想法“簡單”，簡單地認為樣本中所有的特徵都無關，即P(AB) = P(A)P(B)。所以，有 P(y|xi) = P(y)P(x0 = xi0|y)P(x1 = xi1|y)P(x2 = x

【機器學習實踐】用Python實現樸素貝葉斯分類器

閱讀學習了《機器學習》第7章的貝葉斯分類器後，為了加深理解和加強python的程式碼能力，因此嘗試使用Python實現樸素貝葉斯分類器，由於初學Python的緣故，程式碼的一些實現方法可能比較繁瑣，可閱讀性有待提高。程式碼如下： #import numpy a

Python實現樸素貝葉斯演算法 --- 過濾垃圾郵件

# -*- coding:utf-8 -*- import numpy as np import random import re __author__ = 'yangxin' """ 過濾垃圾郵件 """ class FilterSpam(object): #

機器學習及python實現——樸素貝葉斯分類器

問題引入考慮構建一個垃圾郵件分類器，通過給定的垃圾郵件和非垃圾郵件的資料集，通過機器學習構建一個預測一個新的郵件是否是垃圾郵件的分類器。郵件分類器是通常的文字分類器中的一種。樸素貝葉斯方法貝葉斯假設假設當前我們已經擁有了一批標識有是垃圾郵

Python實現樸素貝葉斯分類器

# -*-coding:utf-8-*- ''' 樸素貝葉斯演算法 ''' from __future__ import division global className className = "class" def calc_class(trai

Python實現樸素貝葉斯演算法 --- 遮蔽社群留言板的侮辱性言論

# -*- coding:utf-8 -*- import numpy as np __author__ = 'yangxin' """ 貝葉斯公式 p(xy)=p(x|y)p(y)=p(y|x)p(x) p(x|y)=p(y|x)p(x)/p(y) """ """ 遮蔽社

機器學習之樸素貝葉斯(NB)分類演算法與Python實現

樸素貝葉斯（Naive Bayesian）是最為廣泛使用的分類方法，它以概率論為基礎，是基於貝葉斯定理和特徵條件獨立假設的分類方法。一、概述 1.1 簡介樸素貝葉斯（Naive Bayesian）是基於貝葉斯定理和特徵條件獨立假

python中樸素貝葉斯程式碼的實現

程式碼主要參考機器學習實戰那本書，發現最近老外的書確實比中國人寫的好，由淺入深，程式碼通俗易懂，不多說上程式碼： #encoding:utf-8 ''' Created on 2015年9月6日 @author: ZHOUMEIXU204 樸素貝葉斯實現過程 '''

javascript實現樸素貝葉斯分類與決策樹ID3分類

.com 訓練集 this ice map ive sum length roc 今年畢業時的畢設是有關大數據及機器學習的題目。因為那個時間已經步入前端的行業自然選擇使用JavaScript來實現其中具體的算法。雖然JavaScript不是做大數據處理的最佳語言，相比還沒有

機器學習實戰（三）樸素貝葉斯NB（Naive Bayes）

目錄 0. 前言 1. 條件概率 2. 樸素貝葉斯（Naive Bayes） 3. 樸素貝葉斯應用於文字分類 4. 實戰案例 4.1. 垃圾郵件分類案例學習完機器學習實戰的樸素貝葉斯，簡單的做個筆記。文中

.編程實現樸素貝葉斯分類算法

roc .com ava mat RoCE line rep 分類 gre import csvfile_path = r‘F:\SMSSpamCollectionjs.txt‘sms = open(file_path,‘r‘,encoding = ‘utf-8‘)sms_

Python--基於樸素貝葉斯演算法的情感分類

環境 win8, python3.7, jupyter notebook 正文什麼是情感分析?(以下引用百度百科定義) 情感分析（Sentiment analysis），又稱傾向性分析，意見抽取（Opinion extraction），意見挖掘（Opinion mining），情感挖掘（Sentiment

Python利用樸素貝葉斯進行評分的分類

利用樸素貝葉斯可以對文件進行分類，比如說進行垃圾郵件的過濾等接下來的案例是對評分進行分類的，經過學習判斷一句話應該屬於幾分，0-5分之間。先利用爬蟲爬取樣本資料，該資料來自公開課的評論。 # coding=utf-8 import urllib2 from sgmllib impo

郵件分類和過濾-樸素貝葉斯NB經典案例

關於樸素貝葉斯的理論，已在機器學習之樸素貝葉斯分類器中進行了詳細說明，但是沒有經歷coding親

分類演算法：樸素貝葉斯NB

演算法原理設x={a1,a2,a3,...,am}為一個待分類項，aj為x的一個特徵屬性。 c={y1,y2,...,yn}為類別的集合那麼計算x所屬的類別就是計算：已知x，求P(yi|x)。哪一種類別yi使P(yi|x)最大，x就屬

利用Python實現樸素貝葉斯文字分類

Python是一種面向物件、解釋型計算機程式設計語，作者是Guido van Rossum（吉多·範羅蘇姆），1991年公開正式發行。粗糙進行歸納：（1）Python是純粹自由軟體，原始碼和直

Python高階--樸素貝葉斯

一、貝葉斯 1）貝葉斯原理公式中，事件Bi的概率為P(Bi)，事件Bi已發生條件下事件A的概率為P(A│Bi)，事件A發生條件下事件Bi的概率為P(Bi│A)。 2）貝葉斯解決的問題例項一: 我們想預測北京的冬天某一天下雪,當天堵車

關於Java實現樸素貝葉斯演算法

package naiveBayesian; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStr

Java實現樸素貝葉斯分類器

實驗描述: 對指定資料集進行分類問題的分析，選擇適當的分類演算法，編寫程式實現，提交程式和結果報告資料集： balance-scale.data（見附件一），已有資料集構建貝葉斯分類器。資料包括四個屬性：五個屬性值第一個屬性值表示樣本的類別號，其他四個屬性為四個不同

Python實現樸素貝葉斯(NB)

相關推薦