Python利用樸素貝葉斯進行評分的分類

阿新 • • 發佈：2018-12-28

利用樸素貝葉斯可以對文件進行分類，比如說進行垃圾郵件的過濾等接下來的案例是對評分進行分類的，經過學習判斷一句話應該屬於幾分，0-5分之間。
先利用爬蟲爬取樣本資料，該資料來自公開課的評論。

# coding=utf-8

import urllib2
from sgmllib import SGMLParser
import jieba


class CommentParser(SGMLParser):
    def __init__(self):
        SGMLParser.__init__(self)
        self.__start_table = False 

        self.__start_p = False
        self.__value_p = ''
        self.__value_div = ''
        self.__p_state = 0
        self.data = []

    def start_table(self, attr):
        for k, v in attr:
            if k == 'class' and v == 'table table-hover':
                self.__start_table = True

    def 
 end_table(self):
        if self.__start_table:
            self.data.append([self.__value_p, self.__value_div])
            self.__value_p = ''
            self.__value_div = ''
            self.__p_state = 0
            self.__start_table = False

    def start_div(self, attr):
        if self.__start_table:
            for 
 k, v in attr:
                if k == 'data-score':
                    self.__value_div = v

    def end_div(self):
        pass

    def start_p(self, attrs):
        if self.__start_table:
            self.__p_state += 1
            self.__start_p = True

    def end_p(self):
        if self.__start_table:
            self.__start_p = False

    def handle_data(self, data):
        if self.__start_table and self.__start_p and self.__p_state == 3:
            self.__value_p += data


def get_page(url):
    page = urllib2.urlopen(url).read()
    paraser = CommentParser()
    paraser.feed(page)
    value = paraser.data
    return value


def download():
    url = 'http://coursegraph.com/reviews/'
    for i in range(1, 9):
        value = get_page(url + str(i))
        with open('result.txt', 'a+') as f:
            for row in value:
                f.write('[' + row[1] + ']' + row[0].strip().replace('\n', '').replace('\r', '') + '\n')


def jieba_chn():
    all_value = open('result.txt', 'r+').readlines()
    with open('result1.txt', 'w+') as f:
        for row in all_value:
            value = row[:5][1:4]
            jb = jieba.cut_for_search(row[5:])
            for row in jb:
                if len(row) > 1:
                    value += ',' + row
            f.write(value.encode('utf-8') + '\n')

#下載資料
# download()
#對文件資料進行分詞操作
jieba_chn()

很簡單的一個網路爬蟲，然後利用**結巴**分詞吧文件分割成片語，並去除掉標點符號等操作。具體的結果可以下載本案例進行檢視。
下面開始進行利用樸素貝葉斯進行分類操作
先讀取文件資料

def load_data_set():
    dataSet = []
    labels = []
    with open('result1.txt', 'r+') as f:
        for row in f.readlines():
            t = row.strip().replace('\n', '').split(',')
            labels.append(round(float(t[0]), 1))
            dataSet.append(t[1:])
    return dataSet, labels

建立一個單詞向量和對應的標籤

def create_vocab_list(dataSet, labels):
    vocabSet = []
    labelSet = []
    for index, document in enumerate(dataSet):
        vocabSet.extend(list(set(document)))
        labelSet.extend([labels[index] for i in range(len(set(document)))])
    return vocabSet, labelSet

根據單詞出現修改相應的標籤

def set_of_words2_vec(vocabList, label, inputSet):
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        for index, r in enumerate(vocabList):
            if r == word:
                returnVec[index] += label
    return returnVec

對資料驚醒學習操作，計算出片語出現的概率分佈

def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    labelSet = list(set(trainCategory))
    pAbusive = {}
    for r in labelSet:
        pAbusive[str(r)] = len([row for row in trainCategory if row == r]) \
                           / float(numTrainDocs)
    pNumber = {}
    pDenom = {}
    for row in labelSet:
        pNumber[str(row)] = ones(numWords)
        pDenom[str(row)] = 2.0
    for i in range(numTrainDocs):
        pNumber[str(trainCategory[i])] += [row / trainCategory[i] for row in trainMatrix[i]]
        pDenom[str(trainCategory[i])] += sum(trainMatrix[i]) / trainCategory[i]

    ret = {}
    for i in range(len(labelSet)):
        ret[str(labelSet[i])] = pNumber[str(labelSet[i])] / pDenom[str(labelSet[i])]

    return ret, pAbusive

判斷測試片語的出現的概率，選擇出出現概率最高的一項，就是該片語的評分了。

def classifyNB(vec2Classify, pVec, pClass, trainCategory):
    labelSet = list(set(trainCategory))
    p = {}
    for row in labelSet:
        p[str(row)] = sum(vec2Classify * pVec[str(row)]) + log(pClass[str(row)])
    m = sorted(p.items(), key=lambda k: k[1], reverse=True)
    return float(m[0][0])

一下是對文件進行測試的操作，

def testingNB():
    dataSet, labels = load_data_set()
    vocabSet, labelSet = create_vocab_list(dataSet, labels)
    trainMatrix = []
    for index, row in enumerate(dataSet):
        trainMatrix.append(set_of_words2_vec(vocabSet, labels[index], row))
    pV, pAb = trainNB0(trainMatrix, labels)
    testEntry = ['學習', '很棒', '真不錯']
    testEntry = list(set(testEntry))
    thisDoc = array(set_of_words2_vec(vocabSet, 1, testEntry))
    print testEntry, 'classified as: ', classifyNB(thisDoc, pV, pAb, labels)


def test(number):
    '''
    驗證演算法的正確性
    :param number: 當成測試樣本的額百分比
    :return:
    '''
    dataSet, labels = load_data_set()
    test_number = int(len(dataSet) * number)
    testSet = []
    for i in range(test_number):
        randIndex = int(random.uniform(0, len(dataSet)))
        testSet.append([dataSet[randIndex], labels[randIndex]])
        del (dataSet[randIndex])
        del (labels[randIndex])
    # 進行學習
    vocabSet, labelSet = create_vocab_list(dataSet, labels)
    trainMatrix = []
    for index, row in enumerate(dataSet):
        trainMatrix.append(set_of_words2_vec(vocabSet, labels[index], row))
    pV, pAb = trainNB0(trainMatrix, labels)
    # 進行測試
    errorCount = 0
    for row in testSet:
        testEntry = row[0]
        testEntry = list(set(testEntry))
        thisDoc = array(set_of_words2_vec(vocabSet, 1, testEntry))
        ret = classifyNB(thisDoc, pV, pAb, labels)
        if ret != row[1]:
            print "classification error", row[1], ret
            errorCount += 1
    print 'the error rate is: ', float(errorCount) / len(testSet)


test(0.1)
# testingNB()

悲劇的是測試的結果很不理想，難道中文不能這樣分詞，還是那一個細節出現問題，還請大神指導下，權當學習一下吧！
[案例現在地址](http://download.csdn.net/detail/u010154424/9602826)

Python利用樸素貝葉斯進行評分的分類

利用樸素貝葉斯可以對文件進行分類，比如說進行垃圾郵件的過濾等接下來的案例是對評分進行分類的，經過學習判斷一句話應該屬於幾分，0-5分之間。先利用爬蟲爬取樣本資料，該資料來自公開課的評論。 # coding=utf-8 import urllib2 from sgmllib impo

資料探勘入門系列教程（七）之樸素貝葉斯進行文字分類

資料探勘入門系列教程（七）之樸素貝葉斯進行文字分類貝葉斯分類演算法是一類分類演算法的總和，均以貝葉斯定理為基礎，故稱之為貝葉斯分類。而樸素貝葉斯分類演算法就是其中最簡單的分類演算法。樸素貝葉斯分類演算法樸素貝葉斯分類演算法很簡單很簡單，就一個公式如下所示： P(B|A) = \frac{P(A|B) P

利用樸素貝葉斯分類算法對搜狐新聞進行分類（python）

cno new 資產 jieba分詞寶寶 .cn 官網 info targe 數據來源 https://www.sogou.com/labs/resource/cs.php介紹：來自搜狐新聞2012年6月—7月期間國內，國際，體育，社會，娛樂等18個頻道的新聞數據，提供

利用樸素貝葉斯（Navie Bayes）進行垃圾郵件分類

判斷 ase create numpy water 向量 not in imp img 貝葉斯公式描寫敘述的是一組條件概率之間相互轉化的關系。在機器學習中。貝葉斯公式能夠應用在分類問題上。這篇文章是基於自己的學習所整理。並利用一個垃圾郵件分類的樣例來加深對於理論的理解

利用sklearn 樸素貝葉斯進行評論短語的分類

功能：對評論短語，比如一個文章下的評論短語進行分類通過或者刪除，也就是是垃圾、不是垃圾。工具： Spyder，jieba分詞，numpy，joblib，sklearn 程式： # -*- coding: utf-8 -*- """ Created on Mon May 14 10

Python 實現樸素貝葉斯 MNIST資料集

Python實現樸素貝葉斯演算法樸素貝葉斯是機器學習的一種演算法，之所以成為樸素，是因為它的想法“簡單”，簡單地認為樣本中所有的特徵都無關，即P(AB) = P(A)P(B)。所以，有 P(y|xi) = P(y)P(x0 = xi0|y)P(x1 = xi1|y)P(x2 = x

樸素貝葉斯進行新聞主題分類，有程式碼和資料，可以跑通

folder_path = '/Users/apple/Documents/七月線上/NLP/第2課/Lecture_2/Naive-Bayes-Text-Classifier/Database/SogouC/Sample' stopwords_file = '/Users/apple/Docume

利用樸素貝葉斯分析鳶尾花，程式碼有詳細解釋。

#匯入所需要的包 from sklearn.naive_bayes import GaussianNB import numpy as np import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplo

【機器學習實踐】用Python實現樸素貝葉斯分類器

閱讀學習了《機器學習》第7章的貝葉斯分類器後，為了加深理解和加強python的程式碼能力，因此嘗試使用Python實現樸素貝葉斯分類器，由於初學Python的緣故，程式碼的一些實現方法可能比較繁瑣，可閱讀性有待提高。程式碼如下： #import numpy a

Python實現樸素貝葉斯演算法 --- 過濾垃圾郵件

# -*- coding:utf-8 -*- import numpy as np import random import re __author__ = 'yangxin' """ 過濾垃圾郵件 """ class FilterSpam(object): #

Python--基於樸素貝葉斯演算法的情感分類

環境 win8, python3.7, jupyter notebook 正文什麼是情感分析?(以下引用百度百科定義) 情感分析（Sentiment analysis），又稱傾向性分析，意見抽取（Opinion extraction），意見挖掘（Opinion mining），情感挖掘（Sentiment

python中樸素貝葉斯程式碼的實現

程式碼主要參考機器學習實戰那本書，發現最近老外的書確實比中國人寫的好，由淺入深，程式碼通俗易懂，不多說上程式碼： #encoding:utf-8 ''' Created on 2015年9月6日 @author: ZHOUMEIXU204 樸素貝葉斯實現過程 '''

利用樸素貝葉斯模型識別垃圾郵件

轉載請註明出處：在學習，工作，生活中，我們經常會遇到各種分類問題。讓你猜測一個身高2.16的人的職業，你一般會猜測他是籃球運動員。收到一條含有“中獎”詞語的簡訊，會懷疑是一條垃圾簡訊。新聞編輯，收到一封含有“馬雲”詞語的稿子，會傾向於

機器學習及python實現——樸素貝葉斯分類器

問題引入考慮構建一個垃圾郵件分類器，通過給定的垃圾郵件和非垃圾郵件的資料集，通過機器學習構建一個預測一個新的郵件是否是垃圾郵件的分類器。郵件分類器是通常的文字分類器中的一種。樸素貝葉斯方法貝葉斯假設假設當前我們已經擁有了一批標識有是垃圾郵

Python實現樸素貝葉斯(NB)

這篇文章主要關於樸素貝葉斯演算法的用python具體實現，網上關於NB演算法的文章很多，大多圍繞著《機器學習實戰》這本書來著。在此，對於NB演算法的原理我大概介紹一下。貝葉斯定理：已知某條件概率，如何得到兩個條件交換後的概率。即：已知求假設

Python實現樸素貝葉斯分類器

# -*-coding:utf-8-*- ''' 樸素貝葉斯演算法 ''' from __future__ import division global className className = "class" def calc_class(trai

sklearn+python:樸素貝葉斯及文字分類

樸素貝葉斯貝葉斯定理用來計算條件概率，即：然後進行一種樸素(naive)的假設-每對特徵之間都相互獨立: 在給定的輸入中 P(x_1, \dots, x_n) 是一個常量，我們使用下面的分類規則: 可以使用最大後驗概率(Maximum A

Python高階--樸素貝葉斯

一、貝葉斯 1）貝葉斯原理公式中，事件Bi的概率為P(Bi)，事件Bi已發生條件下事件A的概率為P(A│Bi)，事件A發生條件下事件Bi的概率為P(Bi│A)。 2）貝葉斯解決的問題例項一: 我們想預測北京的冬天某一天下雪,當天堵車

Python實現樸素貝葉斯演算法 --- 遮蔽社群留言板的侮辱性言論

# -*- coding:utf-8 -*- import numpy as np __author__ = 'yangxin' """ 貝葉斯公式 p(xy)=p(x|y)p(y)=p(y|x)p(x) p(x|y)=p(y|x)p(x)/p(y) """ """ 遮蔽社

使用樸素貝葉斯進行社會媒體挖掘之推特

前言：本文參考《python資料探勘入門與實踐》第六章，進行twiitter社會媒體挖掘。學完後感覺對社會媒體挖掘領域很有興趣，往後會深入研究。還有就是本文采用ipython編輯，程式碼後面緊跟著輸出，注意不要混淆。正文： ## 下載新的Twitter

Python利用樸素貝葉斯進行評分的分類

相關推薦