西瓜書上樸素貝葉斯的實現，完全按照書上的步驟

阿新 • • 發佈：2019-02-14

注：西瓜書上的資料有錯誤如P152的5/8=0.375，所以程式碼的計算是正確的。如果讀者想要“拉普拉斯修正“的原始碼請訪問https://download.csdn.net/download/song91425/10385345 。所謂的拉普拉斯就是避免出現概率為0的情況。

import numpy as np


def load_data(filepath):
    '''
    :arg filepath  filepath是資料的路徑
    :fun 載入資料：1,青綠,蜷縮,濁響,清晰,凹陷,硬滑,0.697,0.46,是
    :return 載入後的資料
    '''

    file_object = open(filepath, encoding='UTF-8')
    train_data = []
    file_object.readline()
    while 1:
        data = file_object.readline()
        if not data:
            break
        else:
            train_data.append(data)
    file_object.close()
    test = []
    for s in train_data:
        test.append(s.replace('\n', '').split(','))   #去掉\n和把資料按照’,‘分割再存
    return test


def count_labels(data):
    '''

    :param data:資料集
    :return: 返回好瓜和壞瓜的數目
    '''
    yes = 0
    no = 0
    for s in range(data.__len__()):
        if data[s][-1] == '是':
            yes += 1
        else:
            no += 1
    return yes, no


def handle_one_data(data, attr, location, yes, no):
    '''
    :param data: 資料集
    :param attr: 要傳入的屬性
    :param location: 傳入屬性的位置
    :param yes: 好瓜數量
    :param no: 壞瓜數量
    :return: 返回該屬性在好瓜或者是壞瓜的前提下的概率
    '''
    attr_y, attr_n = 0, 0
    for s in range(data.__len__()):
        if data[s][-1] == '是':
            if data[s][location] == attr:
                attr_y += 1
        else:
            if data[s][location] == attr:
                attr_n += 1
    return attr_y / yes, attr_n / no


def handle_data(data):
    '''

    :param data: 資料集
    :return: 對密度和含糖率的均值和標準差
    '''
    midu_y = []
    tiandu_y = []
    midu_n = []
    tiandu_n = []
    for s in range(data.__len__()):
        if data[s][-1] == '是':
            midu_y.append(np.float(data[s][-3]))
            tiandu_y.append(np.float(data[s][-2]))
        else:
            midu_n.append(np.float(data[s][-3]))
            tiandu_n.append(np.float(data[s][-2]))
    m_midu_y = np.mean(midu_y)
    m_midu_n = np.mean(midu_n)
    t_tiandu_y = np.mean(tiandu_y)
    t_tiandu_n = np.mean(tiandu_n)
    std_midu_y = np.std(midu_y)
    std_midu_n = np.std(midu_n)
    std_tiandu_y = np.std(tiandu_y)
    std_tiandu_n = np.std(tiandu_n)

    return m_midu_y, m_midu_n, t_tiandu_y, t_tiandu_n, std_midu_y, std_midu_n, std_tiandu_y, std_tiandu_n


def show_result(p_yes, p_no):
    '''

    :param p_yes: 在好瓜的前提下，測試資料各個屬性的概率
    :param p_no: 在是壞瓜的前提下，測試資料的各個屬性的概率
    :return: 是好瓜或者是壞瓜
    '''
    p1 = 1.0
    p2 = 1.0
    for s in range(p_yes.__len__()):
        p1 *= np.float(p_yes[s])
        p2 *= np.float(p_no[s])
    if p1 > p2:
        print("好瓜", p1, p2)
    else:
        print("壞瓜", p1, p2)


def count_attr_dis(data):
    '''

    :param data: 資料集
    :return: 各個屬性取值的個數
    '''
    count = [] # 記錄各個屬性的取值有多少個不同
    for i in range(data[0].__len__()):
        if i == 0 or i == 7 or i == 8: # 去掉編號，密度，甜度這個屬性
           continue
        d = []
        for s in range(data.__len__()):
            if not d.__contains__(data[s][i]): # 如果讀到的屬性不包含在d裡就加入到d中
                d.append(data[s][i])
        count.append(d.__len__())  # 統計屬性取值不同的個數
    return count


if __name__ == '__main__':
    filepath = 'D:\\pycharm\\bayes.txt'
    data = load_data(filepath)
    m_midu_y, m_midu_n, t_tiandu_y, t_tiandu_n, std_midu_y, std_midu_n, std_tiandu_y, std_tiandu_n = handle_data(data)
    yes, no = count_labels(data)
    p_yes = [yes / (yes + no)]
    p_no = [no / (yes + no)]
    test_data = ['青綠', '蜷縮', '濁響', '清晰', '凹陷', '硬滑', 0.697, 0.460]
    for s in range(6):
        s_yes, s_no = handle_one_data(data, test_data[s], s+1, yes, no)
        p_yes.append(s_yes)
        p_no.append(s_no)

    #求西瓜書公式（7.18）
    p_yes.append(1/(np.sqrt(2*np.pi) * std_midu_y) * np.exp((-1) * ((test_data[6] - m_midu_y)**2)/std_midu_y**2))
    p_no.append(1/(np.sqrt(2 * np.pi) * std_midu_n) * np.exp((-1) * ((test_data[6] - m_midu_n) ** 2) / std_midu_n ** 2))

    p_yes.append(1/(np.sqrt(2 * np.pi) * std_tiandu_y) * np.exp((-1) * ((test_data[7] - t_tiandu_y) ** 2) / std_tiandu_y ** 2))
    p_no.append(1/(np.sqrt(2 * np.pi) * std_tiandu_n) * np.exp((-1) * ((test_data[7] - t_tiandu_n) ** 2) / std_tiandu_n ** 2))

    print(p_yes)
    print(p_no)
    show_result(p_yes, p_no)

    # 防止某個屬性的取值個數為0的概率出現，採用拉皮拉斯修正(各個屬性不同取值已經完成如函式count_attr_dis)

    print(count_attr_dis(data), '不同屬性取值')

西瓜書上樸素貝葉斯的實現，完全按照書上的步驟

注：西瓜書上的資料有錯誤如P152的5/8=0.375，所以程式碼的計算是正確的。如果讀者想要“拉普拉斯修正“的原始碼請訪問https://download.csdn.net/download/song91425/10385345 。所謂的拉普拉斯就是避免出現概率為0的情況

python樸素貝葉斯實現-2

本文主要內容： 1. 樸素貝葉斯為何需要特徵條件獨立 2. 樸素貝葉斯三種模型: 特徵是離散的時候，使用多項式模型特徵是連續變數的時候，應該採用高斯模型特徵的取值只能是1和0伯努利模型) 3. 多項式模型的python實現樸

jieba和樸素貝葉斯實現文字分類

#盜取男票年輕時候的程式碼，現在全給我教學使用了，感恩臉#分類文件為多個資料夾資料夾是以類別名命名內含多個單個文件#coding: utf-8 from __future__ import print_function, unicode_literals import

python樸素貝葉斯實現-1( 貝葉斯定理，全概率公式 )

樸素貝葉斯 (naive Bayes) 法是基於貝葉斯定理與特徵條件獨立假設的分類方法。在研究樸素貝葉斯之前，先回顧下：概率論中的條件概率以及貝葉斯定理。本部分內容基本來源於盛驟, 謝

從爬取豆瓣影評到基於樸素貝葉斯的電影評論情感分析(上)

一、爬取豆瓣影評基本思路：先獲取每個電影的評論區連結，然後依次進入其評論區爬取評論。選取10部電影，每部200條評論。用到的包為：BeautifulSoup，urllib 這裡選取的連結為：豆瓣電影，開啟後內容如下：

利用樸素貝葉斯實現簡單的留言過濾

一、樸素貝葉斯　　首先第一個問題，什麼是樸素貝葉斯？　　貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單，也是常見的一種分類方法。而我們所想要實現的留言過濾其實是一種分類行為，是通過對於概率的判斷，來對樣本進行一個歸類的過程

機器學習--樸素貝葉斯分類，以及拉普拉斯校準

機器學習算法我們 earch lov 單詞標註樸素貝葉斯分類 images 劃分原文鏈接：http://chant00.com/2017/09/18/%E8%B4%9D%E5%8F%B6%E6%96%AF/

簡單示例理解樸素貝葉斯演算法，通俗易懂

一個簡單的例子讓我們看一下這個例子在實踐中如何運作。假設我們正在建立一個分類器，說明文字是否涉及體育運動。我們的訓練集有5句話： Text Category A great game（一個偉大的比賽）

使用樸素貝葉斯演算法，通過使用者安裝的APP列表來推測使用者的性別

從本質上來說，這是一個分類問題，類似於通過郵件內容來推測垃圾郵件，通過使用者的相關資訊來推測使用者是否會拖欠貸款，而通過使用者的APP安裝列表來推測使用者的性別也是一個類似的問題。對於貝葉斯演算法來說，我們首先需要一個訓練集資料，這個訓練集是一個已經打好標籤的資料。

[西瓜書]樸素貝葉斯--numpy + python實現

貝葉斯定理現在假設有兩個事件分別為A和B，貝葉斯定理則可以描述在事件A發生的前提下B發生的概率以及在事件B發生的前提下事件A發生的概率之間的關係。有點繞？畫個圖就能理解了～現在假設事件A發生的概率為 P(A) P(A) 事件B發生的概率為

樸素貝葉斯python程式碼實現（西瓜書）

樸素貝葉斯python程式碼實現（西瓜書）摘要：樸素貝葉斯也是機器學習中一種非常常見的分類方法，對於二分類問題，並且資料集特徵為離散型屬性的時候，使用起來非常的方便。原理簡單，訓練效率高，擬合效果好。樸素貝葉斯貝葉斯公式：樸素貝葉斯之所以稱這為樸素，是因為假設了各個特徵是相互獨立的，因此假定下

《機器學習西瓜書》學習筆記——第七章_貝葉斯分類器_樸素貝葉斯分類器

樸素：特徵條件獨立；貝葉斯：基於貝葉斯定理。樸素貝葉斯是經典的機器學習演算法之一，也基於概率論的分類演算法，屬於監督學習的生成模型。樸素貝葉斯原理簡單，也很容易實現，多用於文字分類，比如垃圾郵件過濾。 1.演算法思想——基於概率的預測貝葉斯決策論是概率框架下

【機器學習－西瓜書】七、樸素貝葉斯分類器

推薦閱讀：拉普拉斯修正 7.3樸素貝葉斯分類器關鍵詞：樸素貝葉斯；拉普拉斯修正上一小節我們知道貝葉斯分類器的分類依據是這公式：P(c∣x)=P(x,c)P(x)=P(c)⋅P(c∣x)P(x) ，對於每個樣本而言，分母P(x)=∑mi=1P(

樸素貝葉斯Naïve Bayes分類演算法在Hadoop上的實現

1. Naïve Bayes演算法介紹 Naïve Bayes是一個簡單有效的分類演算法，已經得到廣泛使用。本文討論了海量資料（TB級）下Naïve Bayes演算法的實現方法，並給出了Hadoop上的實現方案。 2. Naïve Bayes演算法介紹

<Machine Learning in Action >之二樸素貝葉斯 C#實現文章分類

options 直升機 water 飛機 math mes 視頻 write mod def trainNB0(trainMatrix,trainCategory): numTrainDocs = len(trainMatrix) numWords =

樸素貝葉斯分類算法介紹及python代碼實現案例

urn bus 人的元素 1.2 -s index 代碼步驟樸素貝葉斯分類算法 1、樸素貝葉斯分類算法原理 1.1、概述貝葉斯分類算法是一大類分類算法的總稱貝葉斯分類算法以樣本可能屬於某類的概率來作為分類依據樸素貝葉斯分類算法是貝葉斯分類算法中最簡單的一種註：

樸素貝葉斯算法資料整理和PHP 實現版本

樸素貝葉斯樸素貝葉斯算法簡潔http://blog.csdn.net/xlinsist/article/details/51236454 引言先前曾經看了一篇文章，一個老外程序員寫了一些很牛的Shell腳本，包括晚下班自動給老婆發短信啊，自動沖Coffee啊，自動掃描一個DBA發來的郵件啊，等等。於是我也想

javascript實現樸素貝葉斯分類與決策樹ID3分類

.com 訓練集 this ice map ive sum length roc 今年畢業時的畢設是有關大數據及機器學習的題目。因為那個時間已經步入前端的行業自然選擇使用JavaScript來實現其中具體的算法。雖然JavaScript不是做大數據處理的最佳語言，相比還沒有

樸素貝葉斯算法的python實現 -- 機器學習實戰

cut ocl add set 分類器觀察 problem enc 兩個 1 import numpy as np 2 import re 3 4 #詞表到向量的轉換函數 5 def loadDataSet(): 6 postingLi

機器學習：貝葉斯分類器（二）——高斯樸素貝葉斯分類器代碼實現

mod ces 數據大於等於即使平均值方差很多 mode 一高斯樸素貝葉斯分類器代碼實現網上搜索不調用sklearn實現的樸素貝葉斯分類器基本很少，即使有也是結合文本分類的多項式或伯努利類型，因此自己寫了一遍能直接封裝的高斯類型NB分類器，當然與真正的源碼相

西瓜書上樸素貝葉斯的實現，完全按照書上的步驟

相關推薦