樸素貝葉斯Python實現

阿新 • • 發佈：2019-01-10

貝葉斯定理：

from math import *
from numpy import *
import random

建立資料集和標籤
def loadData():
    postingList=[['my','dog','has','flea','problems','help','please'],
                 ['maybe','not','take','him','to','dog','park','stupid'],
                 ['my','dalmation','is','so','cute','I','love','him'],
                 ['stop','posting','stupid','worthless','garbage'],
                 ['mr','licks','ate','my','steak','how','to','stop','him'],
                 ['quit','buying','worthless','dog','food','stupid']]
    classVec=[0,1,0,1,0,1]#0是正常詞彙，1是具有侮辱性的詞彙
    return postingList,classVec

根據上面的資料集建立詞彙庫
輸入即是上面的資料集postingList
輸出無重複的詞彙庫
def createVocaList(dataset):
    vocabset=set([])
    for document in dataset:
        vocabset=vocabset|set(document)#union交集，除去重複性詞彙
    return list(vocabset)

將單個樣本隱射到詞彙庫中，統計單個樣本在詞庫中的出現情況
def setOfWords2Vec(vocabList,inputset):
    returnVec=[0]*len(vocabList)#建立一個與詞彙庫長度相同的0向量表
    for word in inputset:
        if word in vocabList:
            returnVec[vocabList.index(word)]=1#詞彙表中出現過的詞彙記1
        else:
            print("the word:{0} is not in my vocabulary".format(word))
    return returnVec

def trainNB0(trainMatrix,trainCategory):
    numTrainDocs=len(trainMatrix)#統計訓練樣本的大小此處numTrainDocs=6
    numWords=len(trainMatrix[0])#統計樣本中第一個文件中包含的詞彙個數
    pAbusive=sum(trainCategory)/float(numTrainDocs)#計算侮辱性詞彙的概率
    p0Num=ones(numWords)#初始樣本個數為1，防止條件概率為0
    p1Num=ones(numWords)
    p0Denom=2.0#初始樣本個數為2，防止條件概率為0
    p1Denom=2.0
    for i in range(numTrainDocs):
        if trainCategory[i]==1:#計算類別為1的詞彙出現概率
            p1Num+=trainMatrix[i]#當某一文件中出現1時，p1Num加1
            p1Denom+=sum(trainMatrix[i])#同時，在整個訓練樣本中類別為1的詞彙數+1
        else:
            p0Num+=trainMatrix[i]
            p1Denom+=sum(trainMatrix[i])
    p1Vect=p1Num/p1Denom
    p1Vect=[log(x) for x in p1Vect]#p1Vect表示條件概率P（Wi|c=1）
    p0Vect=p0Num/p0Denom
    p0Vect=[log(x) for x in p0Vect]#p0Vect表示條件概率P（Wi|c=0）
    return p0Vect,p1Vect,pAbusive

訓練貝葉斯分類演算法
def classifyNB(vec2classify,p0Vec,p1Vec,pclass1):
    p1=sum(vec2classify*p1Vec)+log(pclass1)
    p0=sum(vec2classify*p0Vec)+log(1.0-pclass1)
    if p1>p0:
        return 1
    else:
        return 0

測試分類模型
def testingNB():
    listOPosts,listclass=loadData()#載入資料集和類標號
    myVocabList=createVocaList(listOPosts)#建立詞庫
    trainMat=[]
    for postinDoc in listOPosts:#計算詞庫中的每個樣本的出現情況
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0V, p1V, pAb = trainNB0(numpy.array(trainMat), numpy.array(listclass))#計算條件概率
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = numpy.array(setOfWords2Vec(myVocabList, testEntry))
    print("testEntry classified as:{0}".format(classifyNB(thisDoc, p0V, p1V, pAb)))
    testEntry = ['stupid', 'garbage','quit']
    thisDoc = numpy.array(setOfWords2Vec(myVocabList, testEntry))
    print("testEntry classified as:{0}".format(classifyNB(thisDoc, p0V, p1V, pAb)))

利用樸素貝葉斯進行垃圾郵件測試

def textParse(bigstring):
    import re#匯入正則式
    listOfTokens=re.split(r'\w*',bigstring)
    return [tok.lower() for tok in listOfTokens if len(tok)>2]#去掉少於兩個字元的字串，，並將所有的字串轉換為小寫

def spamTest():
    docList=[]
    classList=[]
    fullText=[]
    for i in range(1,26):
        wordList=textParse(open('spam/%d.txt'%i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList=textParse(open('ham/%d.txt'%i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList=createVocaList(docList)
    trainingSet=list(range(50))
    testSet=[]
    for i in range(10):#隨機選擇十封郵件 作為測試集
        randIndex=int(random.uniform(0,len(trainingSet)))#隨機選擇十個數字，數字對應的文件被新增到測試集
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])#將選中的文件從訓練集中刪除
    trainMat=[]
    trainClasses=[]
    for docIndex in trainingSet:
        trainMat.append(setOfWords2Vec(vocabList,docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V,p1V,pSpam=trainNB0(array(trainMat),array(trainClasses))
    errorCount=0
    for docIndex in testSet:
        wordVector=setOfWords2Vec(vocabList,docList[docIndex])
        if classifyNB(array(wordVector),p0V,p1V,pSpam)!=classList[docIndex]:
            errorCount+=1
        print("the error rate is {0}".format(float(errorCount)/len(testSet)))

機器學習實戰——樸素貝葉斯Python實現記錄

問題：regEx= re.compile('\\W*') 屬於列印錯誤。正確： regEx = re.compile('\W*') regEx = re.compile('\W*') 關於'\W' 和'\w'區別，可參考部落格：https://

學習筆記——Kaggle_Digit Recognizer (樸素貝葉斯 Python實現）

本文是個人學習筆記，該篇主要學習樸素貝葉斯演算法概念，並應用sklearn.naive_bayes演算法包解決Kaggle入門級Digit Recognizer。貝葉斯定理對於貝葉斯定理的瞭解和學習大部分都是從概率論開始的，但實際貝葉斯

樸素貝葉斯 python 實現

百度文庫文庫2 機器學習實戰的樸素貝葉斯的程式碼太複雜 """ Created on Thu Aug 10 15:08:59 2017 @author: luogan """ #coding=gbk #Naive Bayes #Calculate

樸素貝葉斯Python實現

貝葉斯定理： from math import * from numpy import * import random 建立資料集和標籤 def loadData(): postingList

機器學習演算法-樸素貝葉斯Python實現

引文：前面提到的K最近鄰演算法和決策樹演算法，資料例項最終被明確的劃分到某個分類中，下面介紹一種不能完全確定資料例項應該劃分到哪個類別，或者說只能給資料例項屬於給定分類的概率。基於貝葉斯決策理論的分類方法之樸素貝葉斯優點：在資料較少的情況下仍然有效

資料探勘十大演算法（九）：樸素貝葉斯 python和sklearn實現

第三個演算法終於算是稍有了解了，其實當你結合資料瞭解了它的實現原理後，你會發現確實很樸素。這裡對樸素貝葉斯演算法做一個介紹和總結，包括（原理、一個程式碼示例、sklearn實現），皆為親自實踐後的感悟，下面進入正文。原理：首先我們需要了解概率論的一些簡單知識：

樸素貝葉斯python程式碼實現（西瓜書）

樸素貝葉斯python程式碼實現（西瓜書）摘要：樸素貝葉斯也是機器學習中一種非常常見的分類方法，對於二分類問題，並且資料集特徵為離散型屬性的時候，使用起來非常的方便。原理簡單，訓練效率高，擬合效果好。樸素貝葉斯貝葉斯公式：樸素貝葉斯之所以稱這為樸素，是因為假設了各個特徵是相互獨立的，因此假定下

<Machine Learning in Action >之二樸素貝葉斯 C#實現文章分類

options 直升機 water 飛機 math mes 視頻 write mod def trainNB0(trainMatrix,trainCategory): numTrainDocs = len(trainMatrix) numWords =

樸素貝葉斯python小樣本實例

else take dataset 核心 inpu lis def hle 模型樸素貝葉斯優點：在數據較少的情況下仍然有效，可以處理多類別問題缺點：對於輸入數據的準備方式較為敏感適用數據類型：標稱型數據樸素貝葉斯決策理論的核心思想：選擇具有最高概率的決策樸素貝葉斯的一般過

情感分析背後的樸素貝葉斯及實現基於評論語料庫的影評情感分析(附程式碼)

一.情感分析的介紹一句話概括情感分析:判斷出一句評價/點評/影評的正/負傾向性；情感分析是一個二分類的問題,一種是可以直接判斷正負,一種是可以判斷情感偏向正負性的一個打分; 二,詞袋模型（向量空間模型） 2.1情感分析的流程中文分

樸素貝葉斯演算法實現分類以及Matlab實現

開始其實在學習機器學習的一些演算法，最近也一直在看這方面的東西，並且嘗試著使用Matlab進行一些演算法的實現。這幾天一直在看得就是貝葉斯演算法實現一個分類問題。大概經過了一下這個過程：看書→演算法公式推演→網上查詢資料→進一步理解→蒐集資料集開始嘗

樸素貝葉斯演算法——實現新聞分類（Sklearn實現）

1、樸素貝葉斯實現新聞分類的步驟（1）提供文字檔案，即資料集下載（2）準備資料將資料集劃分為訓練集和測試集；使用jieba模組進行分詞，詞頻統計，停用詞過濾，文字特徵提取，將文字資料向量化（3）分析資料：使用matplotlib模組分

一步步教你輕鬆學樸素貝葉斯模型實現篇2

導讀：樸素貝葉斯模型是機器學習常用的模型演算法之一，其在文字分類方面簡單易行，且取得不錯的分類效果。所以很受歡迎，對於樸素貝葉斯的學習，本文首先介紹理論知識即樸素貝葉斯相關概念和公式推導，為了加深理解，採用一個維基百科上面性別分類例子進行形式化描述。然後通過程式設計實現樸素貝葉斯分類演算法，並在遮蔽社

邏輯迴歸和樸素貝葉斯演算法實現二值分類（matlab程式碼）

資料簡介：共有306組資料，每組資料有三個屬性(x1,x2,x2)，屬於0類或者1類。資料序號末尾為1的是測試集，有31組；其他的作為訓練集，有275組。 clear clc load('

樸素貝葉斯演算法實現分類問題（三類）matlab程式碼

資料簡介本訓練資料共有625個訓練樣例，每個樣例有4個屬性x1,x2,x3,x4，每個屬性值可以取值{1，2，3，4，5}。資料集中的每個樣例都有標籤"L","B"或"R"。我們在這裡序號末尾為1的樣本當作測試集，共有63個，其他的作為訓練集，共有562個。下

西瓜書上樸素貝葉斯的實現，完全按照書上的步驟

注：西瓜書上的資料有錯誤如P152的5/8=0.375，所以程式碼的計算是正確的。如果讀者想要“拉普拉斯修正“的原始碼請訪問https://download.csdn.net/download/song91425/10385345 。所謂的拉普拉斯就是避免出現概率為0的情況

《統計學習方法》——樸素貝葉斯程式碼實現

### 樸素貝葉斯分類原理對於給定的訓練資料集，首先基於特徵條件獨立假設學習輸入/輸出的聯合概率分佈；然後基於此模型，對給定的輸入$x$,利用貝葉斯定理求出後驗概率最大的輸出$y$。 **特徵獨立性假設**：在利用貝葉斯定理進行預測時，我們需要求解條件概率$P(x|y_k)=P(x_1,x_2,...,x

樸素貝葉斯分類算法介紹及python代碼實現案例

urn bus 人的元素 1.2 -s index 代碼步驟樸素貝葉斯分類算法 1、樸素貝葉斯分類算法原理 1.1、概述貝葉斯分類算法是一大類分類算法的總稱貝葉斯分類算法以樣本可能屬於某類的概率來作為分類依據樸素貝葉斯分類算法是貝葉斯分類算法中最簡單的一種註：

樸素貝葉斯算法的python實現 -- 機器學習實戰

cut ocl add set 分類器觀察 problem enc 兩個 1 import numpy as np 2 import re 3 4 #詞表到向量的轉換函數 5 def loadDataSet(): 6 postingLi

樸素貝葉斯算法簡介及python代碼實現分析

匯總 cti rate append avg pop one data number 概念：　　貝葉斯定理：貝葉斯理論是以18世紀的一位神學家托馬斯.貝葉斯(Thomas Bayes)命名。通常，事件A在事件B（發生）的條件下的概率，與事件B在事件A（發生）的條件

樸素貝葉斯Python實現

相關推薦