python樸素貝葉斯實現-2

阿新 • • 發佈：2018-12-30

本文主要內容：

1. 樸素貝葉斯為何需要特徵條件獨立

2. 樸素貝葉斯三種模型:

特徵是離散的時候，使用多項式模型
特徵是連續變數的時候，應該採用高斯模型
特徵的取值只能是1和0伯努利模型)

3. 多項式模型的python實現

樸素貝葉斯 (naive Bayes)
法是基於貝葉斯定理與特徵條件獨立假設的分類方法。對於給定的訓練資料集，首先基於特徵條件獨立假設學習輸入/輸出的聯合概率分佈；然後基於此模型，對給定的輸入x，利用貝葉斯定理求出後驗概率最大的輸出Y。

貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單，也是常見的一種分類方法。

理解樸素貝葉斯 (naive Bayes)主要分為兩個部分：

1. 貝葉斯定理

2. 特徵條件獨立

貝葉斯定理上篇blog已經做了回顧，本文首先，說明特徵條件獨立的意義

1. 樸素貝葉斯為何需要特徵條件獨立

這裡寫圖片描述

樸素貝葉斯法對條件概率分佈作了條件獨立性的假設。由於這是一個較強的假設，樸素貝葉斯法也由此得名。具體地，條件獨立性假設是:

這裡寫圖片描述

光看定義，還是不能很好的理解為何需要條件獨立，現在給出知乎上面別人的解釋：

假設根據一個男生四個特徵(帥，性格好，身高，上進)來判斷女生是否嫁還是不嫁。首先給出下表(以及省略很多資料)

這裡寫圖片描述

現在給我們的問題是，如果一對男女朋友，男生想女生求婚，男生的四個特點分別是不帥，性格不好，身高矮，不上進，請你判斷一下女生是嫁還是不嫁？

轉為數學問題就是比較p(嫁|(不帥、性格不好、身高矮、不上進))與p(不嫁|(不帥、性格不好、身高矮、不上進))的概率，誰的概率大，我就能給出嫁或者不嫁的答案！

沒有假設特徵之間相互獨立，那麼我們統計的時候，就需要在整個特徵空間中去找，比如統計p(不帥、性格不好、身高矮、不上進|嫁),我們就需要在嫁的條件下，去找四種特徵全滿足分別是不帥，性格不好，身高矮，不上進的人的個數，這樣的話，由於資料的稀疏性，很容易統計到0的情況

我們這個例子有4個特徵，其中帥包括{帥，不帥}，性格包括{不好，好，爆好}，身高包括{高，矮，中}，上進包括{不上進，上進}，那麼四個特徵的聯合概率分佈總共是4維空間，總個數為2*3*3*2=36個

假設特徵之間相互獨立，根據樸素貝葉斯公式：

這裡寫圖片描述

樸素貝葉斯法對條件概率分佈做了條件獨立性的假設，由於這是一個較強的假設，樸素貝葉斯也由此得名！這一假設使得樸素貝葉斯法變得簡單，但有時會犧牲一定的分類準確率。

2. 樸素貝葉斯三種模型:

特徵是離散的時候，使用多項式模型

這裡寫圖片描述

下面給出實際示例：

這裡寫圖片描述

特徵是連續變數的時候，應該採用高斯模型

特徵的取值只能是1和0伯努利模型)

3. 多項式模型的python實現

資料來自於李航書上的示例, S, M, L改為了 4, 5, 6

def get_multi_data():
    x = np.array([
        [1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3],
        [4, 5, 5, 4, 4, 4, 5, 5, 6, 6, 6, 5, 5, 6, 6]
    ])

    x = x.T

    y = np.array([-1, -1, 1, 1, -1, -1, -1, 1, 1, 1, 1, 1, 1, 1, -1])
    return x, y

程式碼實現

class MultinomialNB(object):
    def __init__(self, alpha=1.0):
        self.alpha = alpha

        self._dic_class_prior = {}
        self._cd_prob = {}

    def fit(self, x, y):
        # calculate class prior probabilities: P(y=ck)
        self._cal_y_prob(y)

        # calculate Conditional Probability: P( xj | y=ck )
        self._cal_x_prob(x, y)

    def _cal_y_prob(self, y):
        """
        calculate class prior probability
        like: {class_1: prob_1, class_2:prob_2, ...}
        for example two class 1, 2 with probability 0.4 and 0.6
        {1: 0.4, 2: 0.6}
        """
        sample_num = len(y) * 1.0
        if sample_num < 1:
            raise ValueError

        unique_class, class_count = np.unique(y, return_counts=True)

        # calculate class prior probability
        for c, num in zip(unique_class, class_count):
            self._dic_class_prior[c] = num / sample_num

    def _cal_x_prob(self, x, y):
        """
        calculate Conditional Probability: P( xj | y=ck )
        like { c0:{ x0:{ value0:0.2, value1:0.8 }, x1:{} }, c1:{...} }

        for example the below ,as to class 1 feature 0 has 3 values "1, 2 , 3"
        the corresponding probability 0.22, 0.33, 0.44 
        p( x1 = 1 | y = 1 ) = 0.22
        p( x1 = 2 | y = 1 ) = 0.33
        p( x1 = 3 | y = 1 ) = 0.44

        { 1: {0: {1: 0.22, 2: 0.33, 3: 0.44}, 1: {4: 0.11, 5: 0.44, 6: 0.44}},
         -1: {0: {1: 0.50, 2: 0.33, 3: 0.16}, 1: {4: 0.50, 5: 0.33, 6: 0.16}}
        }
        """

        unique_class = np.unique(y)

        for c in unique_class:
            self._cd_prob[c] = {}

            c_idxs = np.where(y==c)[0]

            for i, col_feature in enumerate(x.T):
                dic_f_prob = {}
                self._cd_prob[c][i] = dic_f_prob

                for idx in c_idxs:
                    if col_feature[idx] in dic_f_prob:
                        dic_f_prob[col_feature[idx]] += 1
                    else:
                        dic_f_prob[col_feature[idx]] = 1

                for k in dic_f_prob:
                    dic_f_prob[k] = dic_f_prob[k] * 1.0 / len(c_idxs)

    def _pred_once(self, x):
        dic_ret = {}

        for y in self._dic_class_prior:
            y_prob = self._dic_class_prior[y]
            for i, v in enumerate(x):
                y_prob = y_prob * self._cd_prob[y][i][v]

            dic_ret[y] = y_prob

        return dic_ret

    def predict(self, x):
        if x.ndim == 1:
            return self._pred_once(x)
        else:
            labels = []
            for i in xrange(x.shape[0]):
                labels.append(self._pred_once(x[i]))

        return labels

    def get_class_prior(self):
        return self._dic_class_prior

    def get_cd_prob(self):
        return self._cd_prob

執行的結果：

if __name__ == '__main__':

    x, y = get_multi_data()
    print x.ndim, y.ndim
    # 2 1

    mnb = MultinomialNB()
    mnb.fit(x, y)

    print "class prior probability: %s" % mnb.get_class_prior()
    # {1: 0.599, -1: 0.40}

    print "feature condition probability: %s" % mnb.get_cd_prob()
    # { 1: {0: {1: 0.22, 2: 0.33, 3: 0.44}, 1: {4: 0.11, 5: 0.44, 6: 0.44}},
    #  -1: {0: {1: 0.50, 2: 0.33, 3: 0.16}, 1: {4: 0.50, 5: 0.33, 6: 0.16}}
    # }

    item = np.array([2, 4])
    print mnb.predict(item)
    # {1: 0.02222, -1: 0.06666}

參考：

python樸素貝葉斯實現-2

本文主要內容： 1. 樸素貝葉斯為何需要特徵條件獨立 2. 樸素貝葉斯三種模型: 特徵是離散的時候，使用多項式模型特徵是連續變數的時候，應該採用高斯模型特徵的取值只能是1和0伯努利模型) 3. 多項式模型的python實現樸

python樸素貝葉斯實現-1( 貝葉斯定理，全概率公式 )

樸素貝葉斯 (naive Bayes) 法是基於貝葉斯定理與特徵條件獨立假設的分類方法。在研究樸素貝葉斯之前，先回顧下：概率論中的條件概率以及貝葉斯定理。本部分內容基本來源於盛驟, 謝

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

groups group news ckey put epo test electron final 使用python3 學習樸素貝葉斯分類api 設計到字符串提取特征向量歡迎來到我的git下載源代碼: https://github.com/linyi0604/kag

python：貝葉斯實現例項

資料的重要性毋庸置疑，但是如何讓資料產生價值呢？對一個全棧老碼農而言，經常在開發或者研發管理的時候遇到各種預測、決策、推斷、分類、檢測、排序等諸多問題。面對“你的程式碼還有 bug 麼？”這樣的挑戰，一種理智的回答是，我們已經執行了若干測試用例，程式碼中存在bug的可能性是百

jieba和樸素貝葉斯實現文字分類

#盜取男票年輕時候的程式碼，現在全給我教學使用了，感恩臉#分類文件為多個資料夾資料夾是以類別名命名內含多個單個文件#coding: utf-8 from __future__ import print_function, unicode_literals import

Python 樸素貝葉斯分類器

def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', '

sklearn+python:樸素貝葉斯及文字分類

樸素貝葉斯貝葉斯定理用來計算條件概率，即：然後進行一種樸素(naive)的假設-每對特徵之間都相互獨立: 在給定的輸入中 P(x_1, \dots, x_n) 是一個常量，我們使用下面的分類規則: 可以使用最大後驗概率(Maximum A

利用樸素貝葉斯實現簡單的留言過濾

一、樸素貝葉斯　　首先第一個問題，什麼是樸素貝葉斯？　　貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單，也是常見的一種分類方法。而我們所想要實現的留言過濾其實是一種分類行為，是通過對於概率的判斷，來對樣本進行一個歸類的過程

樸素貝葉斯演算法之python實現　統計學習方法例4.2實戰

　本人在自學李航老師的統計學習方法，在學習樸素貝葉斯章節時，其中概念非常好理解，但是準備想把課本中的例題實戰一下時卻犯了難，有點無從下手的感覺，主要是因為怎麼去合理的去寫，提高程式碼的適應性以及重複利用率。　在網上找了蠻多部落格，大部分都是是判斷情感詞等，其中有篇部落

貝葉斯2-樸素貝葉斯的python實現

OK，前文http://blog.csdn.net/lvhao92/article/details/50775860提到了一些圍繞貝葉斯的基礎概念，極大似然等等。這篇就是介紹大名鼎鼎的樸素貝葉斯分類器寫文章之前百度了一下貝葉斯，發現大多數文章提到貝葉斯就是樸素貝葉斯。其實

樸素貝葉斯分類算法介紹及python代碼實現案例

urn bus 人的元素 1.2 -s index 代碼步驟樸素貝葉斯分類算法 1、樸素貝葉斯分類算法原理 1.1、概述貝葉斯分類算法是一大類分類算法的總稱貝葉斯分類算法以樣本可能屬於某類的概率來作為分類依據樸素貝葉斯分類算法是貝葉斯分類算法中最簡單的一種註：

樸素貝葉斯算法的python實現 -- 機器學習實戰

cut ocl add set 分類器觀察 problem enc 兩個 1 import numpy as np 2 import re 3 4 #詞表到向量的轉換函數 5 def loadDataSet(): 6 postingLi

樸素貝葉斯算法簡介及python代碼實現分析

匯總 cti rate append avg pop one data number 概念：　　貝葉斯定理：貝葉斯理論是以18世紀的一位神學家托馬斯.貝葉斯(Thomas Bayes)命名。通常，事件A在事件B（發生）的條件下的概率，與事件B在事件A（發生）的條件

樸素貝葉斯（Python實現）

這篇文章是《機器學習實戰》（Machine Learning in Action）第四章基於概率論的分類方法：樸素貝葉斯演算法的Python實現程式碼。 1 參考連結機器學習實戰 2 實現程式碼 from numpy import * import feedpa

機器學習實戰——樸素貝葉斯Python實現記錄

問題：regEx= re.compile('\\W*') 屬於列印錯誤。正確： regEx = re.compile('\W*') regEx = re.compile('\W*') 關於'\W' 和'\w'區別，可參考部落格：https://

[西瓜書]樸素貝葉斯--numpy + python實現

貝葉斯定理現在假設有兩個事件分別為A和B，貝葉斯定理則可以描述在事件A發生的前提下B發生的概率以及在事件B發生的前提下事件A發生的概率之間的關係。有點繞？畫個圖就能理解了～現在假設事件A發生的概率為 P(A) P(A) 事件B發生的概率為

Python 實現樸素貝葉斯 MNIST資料集

Python實現樸素貝葉斯演算法樸素貝葉斯是機器學習的一種演算法，之所以成為樸素，是因為它的想法“簡單”，簡單地認為樣本中所有的特徵都無關，即P(AB) = P(A)P(B)。所以，有 P(y|xi) = P(y)P(x0 = xi0|y)P(x1 = xi1|y)P(x2 = x

python實現隨機森林、邏輯回歸和樸素貝葉斯的新聞文本分類

ati int ces 平滑讀取 inf dict http tor 實現本文的文本數據可以在THUCTC下載也可以自己手動爬蟲生成，本文主要參考：https://blog.csdn.net/hao5335156/article/details/82716923 nb表

機器學習——樸素貝葉斯演算法Python實現

簡介這裡參考《統計學習方法》李航編進行學習總結。詳細演算法介紹參見書籍，這裡只說明關鍵內容。即條件獨立下：p{X=x|Y=y}=p{X1=x1|Y=y} * p{X2=x2|Y=y} *...* p{Xn=xn|Y=y} （4.4）等價於p{Y=ck|X=x

【python與機器學習入門3】樸素貝葉斯2——垃圾郵件分類

參考部落格：樸素貝葉斯基礎篇之言論過濾器（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第四章4.6

python樸素貝葉斯實現-2

1. 樸素貝葉斯為何需要特徵條件獨立

2. 樸素貝葉斯三種模型:

3. 多項式模型的python實現

1. 貝葉斯定理

2. 特徵條件獨立

1. 樸素貝葉斯為何需要特徵條件獨立

假設特徵之間相互獨立，根據樸素貝葉斯公式：

2. 樸素貝葉斯三種模型:

特徵是離散的時候，使用多項式模型

特徵是連續變數的時候，應該採用高斯模型

特徵的取值只能是1和0伯努利模型)

3. 多項式模型的python實現

參考：

相關推薦