樸素貝葉斯文本分類（詳解）

阿新 • • 發佈：2018-05-08

詞向量列表出現下標 put The 標註問題 else

from numpy import zeros,array
from math import log

def loadDataSet():
#詞條切分後的文檔集合，列表每一行代表一個email 
    postingList=[[‘your‘,‘mobile‘,‘number‘,‘is‘,‘award‘,‘bonus‘,‘prize‘],
                 [‘new‘,‘car‘,‘and‘,‘house‘,‘for‘,‘my‘,‘parents‘],
                 [‘my‘,‘dalmation‘,‘is‘,‘so‘,‘cute‘,‘I‘,‘love‘,‘him‘],  
                 [‘today‘,‘voda‘,‘number‘,‘prize‘, ‘receive‘,‘award‘],
                 [‘get‘,‘new‘,‘job‘,‘in‘,‘company‘,‘how‘,‘to‘,‘get‘,‘that‘],
                 [‘free‘,‘prize‘,‘buy‘,‘winner‘,‘receive‘,‘cash‘]]
    #由人工標註的每篇文檔的類標簽
    classVec=[1,0,0,1,0,1] #1-spam, 0-ham
    return postingList,classVec
postingList,classVec = loadDataSet()


#統計所有文檔中出現的詞條列表    
def createVocabList(dataSet): 
    vocabSet=set([])
    #遍歷文檔集合中的每一篇文檔
    for document in dataSet: 
        vocabSet=vocabSet|set(document) 
    return list(vocabSet)
vocabSet = createVocabList(postingList)


#根據詞條列表中的詞條是否在文檔中出現(出現1，未出現0)，將文檔轉化為詞條向量    
def setOfWords2Vec(vocabSet,inputSet):
    #新建一個長度為vocabSet的列表，並且各維度元素初始化為0
    returnVec=[0]*len(vocabSet)
    #遍歷文檔中的每一個詞條
    for word in inputSet:
        #如果詞條在詞條列表中出現
        if word in vocabSet:
            #通過列表獲取當前word的索引(下標)
            #將詞條向量中的對應下標的項由0改為1
            returnVec[vocabSet.index(word)]=1
        else: print(‘the word: %s is not in my vocabulary! ‘%‘word‘)
    #返回inputet轉化後的詞條向量
    return returnVec
 
trainMatrix = [setOfWords2Vec(vocabSet,inputSet) for inputSet in postingList] 


#訓練算法，從詞向量計算概率p(w0|ci)...及p(ci)
#@trainMatrix：由每篇文檔的詞條向量組成的文檔矩陣
#@trainCategory:每篇文檔的類標簽組成的向量
def trainNB0(trainMatrix,trainCategory):
    #獲取文檔矩陣中文檔的數目
    numTrainDocs=len(trainMatrix)
    #獲取詞條向量的長度
    numWords=len(trainMatrix[0])
    #所有文檔中屬於類1所占的比例p(c=1)
    pAbusive=sum(trainCategory)/float(numTrainDocs)
    #創建一個長度為詞條向量等長的列表
    p0Num=zeros(numWords) #ham
    p1Num=zeros(numWords) #spam
    p0Denom=0.0
    p1Denom=0.0
    #遍歷每一篇文檔的詞條向量
    for i in range(numTrainDocs):
        #如果該詞條向量對應的標簽為1
        if trainCategory[i]==1:
            #統計所有類別為1的詞條向量中各個詞條出現的次數
            p1Num+=trainMatrix[i]
            #統計類別為1的詞條向量中出現的所有詞條的總數
            #即統計類1所有文檔中出現單詞的數目
            p1Denom+=sum(trainMatrix[i])
        else:
            #統計所有類別為0的詞條向量中各個詞條出現的次數
            p0Num+=trainMatrix[i]
            #統計類別為0的詞條向量中出現的所有詞條的總數
            #即統計類0所有文檔中出現單詞的數目
            p0Denom+=sum(trainMatrix[i])
    print(p1Num, p1Denom, p0Num,p0Denom )
    #利用NumPy數組計算p(wi|c1)
    p1Vect=p1Num/p1Denom  #為避免下溢出問題，需要改為log()
    #利用NumPy數組計算p(wi|c0)
    p0Vect=p0Num/p0Denom  #為避免下溢出問題，需要改為log()
    return p0Vect,p1Vect,pAbusive
 
p0Vect,p1Vect,pAbusive=  trainNB0(trainMatrix,classVec)


#樸素貝葉斯分類函數
#@vec2Classify:待測試分類的詞條向量
#@p0Vec:類別0所有文檔中各個詞條出現的頻數p(wi|c0)
#@p0Vec:類別1所有文檔中各個詞條出現的頻數p(wi|c1)
#@pClass1:類別為1的文檔占文檔總數比例
def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):
    #根據樸素貝葉斯分類函數分別計算待分類文檔屬於類1和類0的概率
    p1=sum(vec2Classify*p1Vec)+log(pClass1)
    p0=sum(vec2Classify*p0Vec)+log(1.0-pClass1)
    if p1>p0:
        return ‘spam‘
    else:
        return ‘not spam‘



testEntry=[‘love‘,‘my‘,‘job‘]
thisDoc=array(setOfWords2Vec(vocabSet,testEntry))
print(testEntry,‘classified as:‘,classifyNB(thisDoc,p0Vect,p1Vect,pAbusive))

　技術分享圖片　

樸素貝葉斯文本分類（詳解）

詞向量列表出現下標 put The 標註問題 else from numpy import zeros,array from math import log def loadDataSet(): #詞條切分後的文檔集合，列表每一行代表一個email p

詳解使用EM算法的半監督學習方法應用於樸素貝葉斯文本分類

post target 集中之間大量 ise 網上 tar 多項式 1.前言　　對大量需要分類的文本數據進行標記是一項繁瑣、耗時的任務，而真實世界中，如互聯網上存在大量的未標註的數據，獲取這些是容易和廉價的。在下面的內容中，我們介紹使用半監督學習和EM算法，充分結合大

樸素貝葉斯文本分類簡單介紹

得到貝葉斯公式 image under ner 由於需要多少 orm 本文介紹樸素貝葉斯算法如何對文本進行分類。比如，每個用戶的購物評論就是一篇文本，識別出這篇文本屬於正向評論還是負面評論就是分類的過程，而類別就是：{正面評論，負面評論}。正面評論為Positive

sklearn——樸素貝葉斯文字分類

在不去除停用詞的情況下用樸素貝進行文字分類 # 從sklearn.datasets裡匯入20類新聞文字資料抓取器。 from sklearn.datasets import fetch_20newsgroups # 從網際網路上即時下載新聞樣本,subset='all'引數

sklearn——樸素貝葉斯文字分類5

在這次的貝葉斯試驗中，用到了交叉驗證，就是假如把資料集分成10份，每次取其中的一份作為test資料，會得到10個測試的準確率，我們可以求10份的平均值，作為這一次的準確率。當我們求出測試集的矩陣大小為(18846, 173452),我們可以看出17萬個詞，其實在選擇特徵時

利用Python實現樸素貝葉斯文字分類

Python是一種面向物件、解釋型計算機程式設計語，作者是Guido van Rossum（吉多·範羅蘇姆），1991年公開正式發行。粗糙進行歸納：（1）Python是純粹自由軟體，原始碼和直

樸素貝葉斯文字分類(python程式碼實現)

樸素貝葉斯（naive bayes）法是基於貝葉斯定理與特徵條件獨立假設的分類方法。優點：在資料較少的情況下仍然有效，可以處理多分類問題。缺點：對入輸入資料的準備方式較為敏感。使用資料型別：標稱型資料。下面從一個簡單問題出發，介紹怎麼使用樸素貝葉

樸素貝葉斯文字分類java實現

import java.io.File; import java.util.ArrayList; import java.util.Collections; import java.util.HashMap; import java.util.HashSet;

sklearn——樸素貝葉斯文字分類6

使用了countVectorizer和TfidfVectorizer兩個統計統計模型，來比較使用哪個模型效果更好（其實都知道tfidf比較好，數學之美中比較好講解），我們將通過影象可以看出兩個統計模型的效果，並且使用了交叉驗證#使用交叉驗證 from sklearn.dat

樸素貝葉斯算法（Naive Bayes）

ive log 分布做了規模 line clas 獨立輸入數據 1. 前言說到樸素貝葉斯算法，首先牽扯到的一個概念是判別式和生成式。判別式：就是直接學習出特征輸出\(Y\)和特征\(X\)之間的關系，如決策函數\(Y=f(X)\),或者從概率論的角度，求出條件分

樸素貝葉斯拉普拉斯平滑（Laplace Smoothing）

轉自：https://blog.csdn.net/qq_25073545/article/details/78621019拉普拉斯平滑（Laplace Smoothing）又被稱為加 1 平滑，是比較常用的平滑方法。平滑方法的存在時為了解決零概率問題。背景:為什麼要做平滑處理

機器學習之樸素貝葉斯(NB)分類演算法與Python實現

樸素貝葉斯（Naive Bayesian）是最為廣泛使用的分類方法，它以概率論為基礎，是基於貝葉斯定理和特徵條件獨立假設的分類方法。一、概述 1.1 簡介樸素貝葉斯（Naive Bayesian）是基於貝葉斯定理和特徵條件獨立假

樸素貝葉斯法分類器的Python3 實現

本篇文章是我在讀了李航的<統計學習方法>後手寫的演算法實現之一原理請參考統計學習方法第四章樸素貝葉斯法-李航程式碼如下: # - * - coding: utf - 8 -*- # # 作者：田豐 # 郵箱：[email pr

機器學習筆記（2）——使用樸素貝葉斯演算法過濾（中英文）垃圾郵件

在上一篇文章《使用樸素貝葉斯演算法對文件分類詳解》中，我們實現了用樸素貝葉斯演算法對簡單文件的分類，今天我們將利用此分類器來過濾垃圾郵件。 1. 準備資料——文字切分之前演算法中輸入的文件格式為單詞向量，例如['my', 'dog', 'has', 'flea', 'p

大前端完整學習路線（詳解）

電子商務 backbone linu 請求響應查詢設置 lob 服務端 php 第一階段： HTML+CSS: HTML進階、CSS進階、div+css布局、HTML+css整站開發、 JavaScript基礎： Js基礎教程、js內置對象常用方法、常見DOM樹

android開發學習 ------- 【轉】 android中的單例模式（詳解）

lan post tail -- and 使用 href details android開發 https://blog.csdn.net/u011418943/article/details/60139644 這篇文章前因後果都說出來了，值得學習。 htt

CodeForces 407C 組合數學（詳解）

class 這樣的 double type 合數 void 題解如何 const 題面：　　http://codeforces.com/problemset/problem/407/C 　　一句話題意：給一個長度為n的序列g，m次操作，每次操作（l,r,k）表示將g

Shell編程之變量（詳解）

export oca shel overruns 當我 nbsp 正則表達式通過 onf 一、什麽是變量在我們上學時，我們就接觸數據方程式；例如：已知x=1 y=x+1 那麽y等於多少，我們毫不猶豫的會算出來2，但是在shell中x就是變量名，那麽對應的1就是變量值，在

HTTP 協議（詳解）

發出響應傳輸協議 nbsp 一個 idt 求和 height TE HTTP協議簡介：HTTP協議是Hyper Text Transfer Protocol(超文本傳輸協議)的縮寫，是用於萬維網（www.world wide web）服務器與本地瀏覽器之間傳輸文本的傳

Hibernate框架環境搭建（詳解）

obj 模型 junit demo 半成品 src 數據表 mys 種類具體說hibernate框架的項目搭建之前，首先說一下什麽是框架。。。框架可以理解成一個半成品的項目，它封裝了一些功能，我麽需要掌握的是如何駕馭這些功能，不需要操心它是怎麽實現的。其實他

樸素貝葉斯文本分類（詳解）

相關推薦