機器學習分類演算法之樸素貝葉斯

阿新 • • 發佈：2019-01-02

一、概念

樸素貝葉斯模型（Naive Bayesian Model，NBM）是以條件概率為基礎的分類器，是一種監督演算法，常被用於文字分類和垃圾郵件過濾。
貝葉斯理論解決的是逆向概率問題，即通過已經發生的已知的概率來推測未發生的事將會發生的概率。

二、計算

樸素貝葉斯各個事件發生的概率是彼此獨立的，即m事件概率P(m)和n事件概率P(n)同時發生的概率為P(mn)=P(m)*P(n)。
條件概率的含義，B發生時A發生的概率為：

A發生時B發生的概率為：

所以：

即，通過已知結果算出概率，然後根據一些條件推測即將發生的結果。

三、實現

features = ['looks', 'credit', 'education', 'height']
samples = [['nice', 'bad', 'S', 'low', 'no'],
           ['ugly', 'good', 'S', 'high', 'no'],
           ['nice', 'good', 'S', 'high', 'yes'],
           ['ugly', 'good', 'H', 'high', 'yes'],
           ['nice', 'bad', 'S', 'high', 'no'],
           [ 
'nice', 'bad', 'S', 'high', 'no'],
           ['nice', 'good', 'H', 'low', 'yes'],
           ['ugly', 'good', 'M', 'high', 'yes'],
           ['nice', 'good', 'M', 'high', 'yes'],
           ['ugly', 'bad', 'H', 'high', 'yes'],
           ['nice', 'good', 'S', 'low', 'no'],
           ['nice', 'good 
', 'S', 'low', 'no'],
           ['nice', 'bad', 'H', 'low', 'no']]


def train():
    data = {}
    results = {}
    for sample in samples:
        for index in range(len(sample) - 1):
            element = sample[index]
            relation = '%s_%s' % (element, sample[-1])
            if element in data:
                data[element] += 1
            else:
                data[element] = 1
            if relation in data:
                data[relation] += 1
            else:
                data[relation] = 1
        if sample[-1] in results:
            results[sample[-1]] += 1
        else:
            results[sample[-1]] = 1
    return data, results


def classify(new_data):
    data, results = train()
    classify_result = []
    for ret_key, ret_value in results.items():
        dividend_probabilities = []
        divisor_probabilities = []
        for element in new_data:
            divisor_probabilities.append(data[element] / len(samples))
            relation = '%s_%s' % (element, ret_key)
            dividend_probabilities.append(data.get(relation, 0) / ret_value)
        value_probability = ret_value / len(samples)
        final_probability = reduce(lambda x, y: x * y, dividend_probabilities) * value_probability / reduce(
            lambda x, y: x * y, divisor_probabilities)
        classify_result.append((ret_key, final_probability))
    return classify_result

print(classify(['nice', 'bad', 'S', 'low']))

機器學習分類演算法之樸素貝葉斯

一、概念樸素貝葉斯模型（Naive Bayesian Model，NBM）是以條件概率為基礎的分類器，是一種監督演算法，常被用於文字分類和垃圾郵件過濾。貝葉斯理論解決的是逆向概率問題，即通過已經發生的已知的概率來推測未發生的事將會發生的概率。二、計算樸素貝葉斯各個事件發

機器學習-分類演算法之樸素貝葉斯

條件概率公式:P(A|B) = P(AB)/P(B) 貝葉斯定理:P(A|B) = P(B|A)P(A)/P(B) 樸素貝葉斯演算法思想:給定一個待分類的資料 X={a1,a2,……,aN},即N個特徵項，目標分類集合Y={y1,y2,……,yK}，即有K個分類通過計算P

機器學習經典演算法之樸素貝葉斯分類

很多人都聽說過貝葉斯原理，在哪聽說過？基本上是在學概率統計的時候知道的。有些人可能會說，我記不住這些概率論的公式，沒關係，我儘量用通俗易懂的語言進行講解。 /*請尊重作者勞動成果，轉載請標明原文連結：*/ /* https://www.cnblogs.com/jpcflyer/p/11069659

機器學習-資料分析之樸素貝葉斯過濾垃圾郵件

資料分析之過濾垃圾郵件前沿之前也學了一些資料分析的案例從一直沒有記錄，所有準備從現在開始把所學的都記錄在CSDN中。如果大家看到我的博文有什麼不理解或者還想學習更深入的可以去上面的網站。樸素貝葉斯之過濾垃圾郵件使用樸素貝葉斯解決一些生活中的問題。先從文字內容得

分類演算法之樸素貝葉斯分類

原文http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html 0、寫在前面的話我個人一直很喜歡演算法一類的東西，在我看

《機器學習實戰》基於樸素貝葉斯分類演算法構建文字分類器的Python實現

Python程式碼實現：#encoding:utf-8 from numpy import * #詞表到向量的轉換函式 def loadDataSet(): postingList = [['my','dog','has','flea','problems','help','please'],

機器學習演算法之樸素貝葉斯（Naive Bayes）--第二篇

引言這篇文章主要介紹將樸素貝葉斯模型應用到文字分類任務的技巧和方法。詞袋模型(The Bag of Words Model) 對於機器學習演算法來說，特徵的選擇是一個很重要的過程。那麼如何從文字訓練集中選出好的特徵呢？在自然語言處理中，一個常見

機器學習演算法之樸素貝葉斯（Naive Bayes）--第一篇

引言先前曾經看了一篇文章，一個老外程式設計師寫了一些很牛的Shell指令碼，包括晚下班自動給老婆發簡訊啊，自動衝Coffee啊，自動掃描一個DBA發來的郵件啊，等等。於是我也想用自己所學來做一點有趣的事情。我的想法如下：首先我寫個scrapy指令碼來

機器學習演算法之樸素貝葉斯

樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。演算法的核心思想就是比較概率的大小，認定概率大的類別為所屬類別下面是公式推導下面是樸素貝葉斯的python程式碼實現import numpy as np from functools import reduce de

【python與機器學習入門3】樸素貝葉斯2——垃圾郵件分類

參考部落格：樸素貝葉斯基礎篇之言論過濾器（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第四章4.6

生成學習演算法之樸素貝葉斯演算法

2 樸素貝葉斯演算法在GDA中，特徵向量是連續的實值向量。現在讓我們討論一種不同的學習演算法，在這個演算法中，是離散值。對於我們的激勵的例子，考慮使用機器學習建立一個電子郵件的垃圾郵件過濾器。這裡，我們希望根據它們是未經請求的商業（垃圾）電子郵件還是非垃圾郵件進行分

機器學習及python實現——樸素貝葉斯分類器

問題引入考慮構建一個垃圾郵件分類器，通過給定的垃圾郵件和非垃圾郵件的資料集，通過機器學習構建一個預測一個新的郵件是否是垃圾郵件的分類器。郵件分類器是通常的文字分類器中的一種。樸素貝葉斯方法貝葉斯假設假設當前我們已經擁有了一批標識有是垃圾郵

Python與機器學習（五）樸素貝葉斯分類

1.安裝中文分詞器由於本文是對中文文字進行分類，故需要用到中文分詞器，而結巴分詞則是Python支援較好的一款分詞器。使用命令安裝： pip3 install jieba3k 或者下載結巴分詞檔案【下載】結巴分詞測試：結巴分詞支援三種分詞模式：精確模式，也是結巴

用Python開始機器學習（6：樸素貝葉斯分類器）

樸素貝葉斯分類器是一個以貝葉斯定理為基礎，廣泛應用於情感分類領域的優美分類器。本文我們嘗試使用該分類器來解決上一篇文章中影評態度分類。1、貝葉斯定理假設對於某個資料集，隨機變數C表示樣本為C類的概率，F1表示測試樣本某特徵出現的概率，套用基本貝葉斯公式，則如下所示：上式表示對

（筆記）斯坦福機器學習第六講--樸素貝葉斯

span || -h 沒有 height 單純去除變量 logistic 本講內容 1. Naive Bayes（樸素貝葉斯） 2.Event models（樸素貝葉斯的事件模型） 3.Neural network （神經網絡） 4.Support vector mac

機器學習實戰筆記3—樸素貝葉斯

注：此係列文章裡的部分演算法和深度學習筆記系列裡的內容有重合的地方，深度學習筆記裡是看教學視訊做的筆記，此處文章是看《機器學習實戰》這本書所做的筆記，雖然演算法相同，但示例程式碼有所不同，多敲一遍沒有壞處，哈哈。（裡面用到的資料集、程式碼可以到網上搜索，很容易找到。）。Python版本3.6

【python和機器學習入門3】樸素貝葉斯1——過濾惡意留言

參考部落格：（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第四章4.5 一樸素貝葉斯理論二 demo：過濾網站惡意留言以線上社群留言為例。為了不影響社群的發展，我們要遮蔽侮辱性的言論，所以要構建一個快速過濾器，如果某

資料探勘領域十大經典演算法之—樸素貝葉斯演算法（超詳細附程式碼）

簡介 NaïveBayes演算法，又叫樸素貝葉斯演算法，樸素：特徵條件獨立；貝葉斯：基於貝葉斯定理。屬於監督學習的生成模型，實現簡單，沒有迭代，並有堅實的數學理論（即貝葉斯定理）作為支撐。在大量樣本下會有較好的表現，不適用於輸入向量的特徵條件有關聯的場景。基本思想 (1)

分類演算法：樸素貝葉斯NB

演算法原理設x={a1,a2,a3,...,am}為一個待分類項，aj為x的一個特徵屬性。 c={y1,y2,...,yn}為類別的集合那麼計算x所屬的類別就是計算：已知x，求P(yi|x)。哪一種類別yi使P(yi|x)最大，x就屬

分類演算法：樸素貝葉斯演算法

一、問題的提出使用Wikipedia上的一個例子： “一所學校裡面有 60% 的男生，40% 的女生。男生總是穿長褲，女生則一半穿長褲一半穿裙子。有了這些資訊之後我們可以容易地計算“隨機選取一個學生，他（她）穿長褲的概率和穿裙子的概率是多大”，這個就是前面說的“正向概率”

機器學習分類演算法之樸素貝葉斯

相關推薦