機器學習之樸素貝葉斯(Naive Bayes)

阿新 • • 發佈：2018-12-15

貝葉斯概率以18世紀的一位神學家托馬斯·貝葉斯(Thomas Bayes)的名字命名。

一、為什麼叫樸素貝葉斯？

樸素貝葉斯是經典機器學習演算法之一，是基於概率論的分類演算法，其原理簡單，易於實現，多使用於文字分類，如垃圾郵件過濾、新聞分類等。

樸素貝葉斯中的樸素是來源於該演算法是基於屬性條件獨立性假設，即對於已知類別，假設所有屬性(特徵)相互獨立；而貝葉斯則是其基於貝葉斯定理而得到的。

所以說樸素貝葉斯演算法就是基於"屬性條件獨立"和“貝葉斯定理”推導得到的演算法。

二、演算法原理

1、貝葉斯決策論

在講解原理之前，我們先來認識一下貝葉斯決策論，貝葉斯決策論(Bayesian decision theory)是概率框架下實施決策的基本方法。

對分類任務來說，在所有相關概率都已知的理想情形下，貝葉斯決策論考慮如何基於這些概率和誤判損失來選擇最優的類別標記。

有N種可能的類別標記，即 $y=\left \{ c_1,c_2,...,c_N \right \}$ ， $\lambda_i_j$ 是將標記為 $c_j$ 判定為 $c_i$ 所產生的損失。基於後驗概率 $P(c_i|x)$ 可獲得將樣本x分類為分類為 $c_i$ 所產生的期望損失(expected loss)，即在樣本x上的“條件風險”(conditional risk):

$R(c_i|x) = \sum_{j=1}^{N}\lambda _i_jP(c_j|x)$

貝葉斯判定準則(Bayes decision rule): 為最小化總體的風險，只需在每個樣本上選擇那個能使條件風險 $R(c|x)$ 最小的類別標記，即

$h^*(x)=\underset{c\epsilon y}{arg min}R(c|x)$

此時， $h^*$ 稱為貝葉斯最優分類器。

具體來說，若目標是最小化分類錯誤率，則誤判損失 $\lambda_i_j$ 可以寫為

$\lambda_i_j=\left \{ ^{0,\ if \ i=j}_{1, \ otherwise}$

。

那麼此時的條件風險為：

$R(c|x) = 1-P(c|x)$

於是，最小化分類錯誤率的貝葉斯最優分類器為：

$h^*(x) = \underset{c\epsilon y}{argmax}P(c|x)$

也就是說，對每個樣本x，選擇能使後驗概率P(c|x)最大的類別標記。

不難看出，如果想使用貝葉斯判定準則來最小化決策風險，則需要先得到後驗概率P(c|x)。後驗概率的獲得主要有兩種策略：

判別式模型：給定x，通過直接建模P(c|x)來預測c。
生成式模型：先對聯合概率分佈P(x,c)進行建模，然後在獲得P(c|x)。

下面，我們來講生成式模型：

$P(c|x)=\frac{P(x,c)}{P(x)}$

由貝葉斯定理，P(c|x)可寫為：

$P(c|x) = \frac{P(c)P(x|c)}{P(x)}$

其中，P(c)是先驗概率；P(x|c)是樣本x相對於類標記c的類條件概率，或稱為“似然”；P(x)是用於歸一化的證據因子，在給定x的情況，P(x)與屬於哪個類無關，所以估計P(c|x)的問題就被轉換為如何基於訓練資料D來估計先驗概率P(c)和似然P(x|c)。

2、極大似然估計

對於這個函式：P(x|θ) 輸入有兩個：x表示某一個具體的資料；θ表示模型的引數。

如果θ是已知確定的，x是變數，這個函式叫做概率函式(probability function)，它描述對於不同的樣本點x，其出現概率是多少。
如果x是已知確定的，θ是變數，這個函式叫做似然函式(likelihood function), 它描述對於不同的模型引數θ，出現x這個樣本點的概率是多少。

極大似然估計方法（Maximum Likelihood Estimate，MLE）也稱為最大概似估計或最大似然估計，是求估計的另一種方法。它是建立在極大似然原理的基礎上的一個統計方法。也就是在引數θ的可能取值範圍內，選取使L(θ)達到最大的引數值θ，作為引數θ的估計值。

3、樸素貝葉斯

樸素貝葉斯是貝葉斯決策論的一部分，其假設“屬性間條件獨立”，也就是說，對於已知的類別，假設所有的屬性相互獨立。從前面貝葉斯決策論，我們知道：

$P(c|x) = \frac{P(c)P(x|c)}{P(x)}$

也就是估計P(c|x)的問題就被轉換為如何基於訓練資料D來估計先驗概率P(c)和似然(類條件概率)P(x|c)。P(x|c)是所有屬性上的聯合概率，難以從有限的訓練樣本直接估計而得，而樸素貝葉斯的屬性條件獨立假設則避開了該障礙。

基於屬性間條件獨立假設，對上式可以重寫為：

$P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\prod _{i=1}^{d}P(x_i|c)$

其中d為屬性數目， $x_i$ 為 $x$ 在第i個屬性上的取值。

又由於對於給定的x，其對所有的類別來說P(x)都是相同的，所以基於風險(損失)最小化準則得到後驗概率最大化準則可以寫為：

$h_{nb}(x) = \underset{c\epsilon y}{arg\ max}{\ P(c)\prod_{i=1}^{d}P(x_i|c)}$

這就是樸素貝葉斯分類器的表示式，即對於給定的樣本x，我們計算每個類別的後驗概率 $P(c_k|x)$ ：

$P(c_k|x) = P(c_k)\prod_{i=1}^{d}P(x_i|c_k)$

而其中得到的後驗概率 $P(c_k|x)$ 最大的類別 $c_k$ 作為分類的結果。

機器學習之樸素貝葉斯(Naive Bayes)

貝葉斯概率以18世紀的一位神學家托馬斯·貝葉斯(Thomas Bayes)的名字命名。一、為什麼叫樸素貝葉斯？樸素貝葉斯是經典機器學習演算法之一，是基於概率論的分類演算法，其原理簡單，易於實現，多使用於文字分類，如垃圾郵件過濾、新聞分類等。樸素貝葉斯中的樸素是來源

【機器學習】--機器學習之樸素貝葉斯從初始到應用

rac AC 一個 pam 數據 ast 出現相對解決方法一、前述機器學習算法中，有種依據概率原則進行分類的樸素貝葉斯算法，正如氣象學家預測天氣一樣，樸素貝葉斯算法就是應用先前事件的有關數據來估計未來事件發生的概率。二、具體 1、背景--貝葉斯定理引入對於兩個關聯

機器學習之樸素貝葉斯分類方法

本文轉載自http://holynull.leanote.com/post/Logistic-2 樸素貝葉斯分類方法前言樸素貝葉斯分類演算法是機器學習領域最基本的幾種演算法之一。但是對於作者這樣沒有什麼資料基礎的老碼農來說，理解起來確實有一些困難。所以撰寫此文幫

機器學習之樸素貝葉斯（附垃圾郵件分類）

樸素貝葉斯分類器介紹概述樸素貝葉斯分類器技術基於貝葉斯定理，特別適用於輸入維數較高的情況。儘管樸素貝葉斯方法簡單，但它通常比更復雜的分類方法更勝一籌。

機器學習之樸素貝葉斯演算法與程式碼實現

樸素貝葉斯演算法與程式碼實現演算法原理樸素貝葉斯是經典的機器學習演算法之一，也是為數不多的基於概率論的分類演算法。樸素貝葉斯原理簡單，也很容易實現，多用於文字分類，比如垃圾郵件過濾。該演算法的優點在於簡單易懂、學習效率高、在某些領

機器學習之樸素貝葉斯分類器附C++程式碼

一、基本概念：先驗概率(prior probability)：是指根據以往經驗和分析得到的概率，如全概率公式，它往往作為"由因求果"問題中的"因"出現的概率。比如，拋一枚硬幣，正面朝上的概率P(A)=1/2,就是先驗概率。聯合概率：表示兩個事件共同發生的概率。A與B的

機器學習之樸素貝葉斯(NB)分類演算法與Python實現

樸素貝葉斯（Naive Bayesian）是最為廣泛使用的分類方法，它以概率論為基礎，是基於貝葉斯定理和特徵條件獨立假設的分類方法。一、概述 1.1 簡介樸素貝葉斯（Naive Bayesian）是基於貝葉斯定理和特徵條件獨立假

機器學習之樸素貝葉斯分類器實現

問題如下比如：有如下的需求，要判斷某一句英語是不是侮辱性語句分析思路對於機器來說，可能不容易分辨出某一句話是不是侮辱性的句子，但是機器可以機械的進行分析，何為機械的進行分析，就是判斷某一個句子中侮辱性的單詞是不是達到一定數量（當然這

機器學習之樸素貝葉斯模型及程式碼示例

一、樸素貝葉斯的推導樸素貝葉斯學習（naive Bayes）是一種有監督的學習，訓練時不僅要提供訓練樣本的特徵向量X，而且還需提供訓練樣本的實際標記Y，是一種基於貝葉斯定理和特徵條件獨立假設的分類方法。 1. 貝葉斯定理：貝葉斯定理：。對於分

大資料之Spark（七）--- Spark機器學習，樸素貝葉斯，酒水評估和分類案例學習，垃圾郵件過濾學習案例，電商商品推薦，電影推薦學習案例

一、Saprk機器學習介紹 ------------------------------------------------------------------ 1.監督學習 a.有訓練資料集,符合規範的資料 b.根據資料集，產生一個推斷函式

樸素貝葉斯Naive Bayes-機器學習ML

參考： 1.《統計學習方法》李航 2.先驗概率與後驗概率的區別：http://blog.csdn.net/ouyang_linux007/article/details/7566339 3.樸素貝葉斯方法（Naive Bayes）原理和實現：http://blog.

機器學習系列——樸素貝葉斯分類器（二）

表示 -h line log ima 條件 code 樸素貝葉斯 spa 貝葉斯定理：其中：表示事件B已經發生的前提下，事件A發生的概率，叫做事件B發生下事件A的條件概率。其基本求解公式為：。機器學習系列——樸素貝葉斯分類器（二）

機器學習面試--樸素貝葉斯

eight str 存儲 hint 做的均值相關性似然 actual 關鍵詞：先驗概率；條件概率和後驗概率；特征條件獨立；貝葉斯公式；樸素貝葉斯；極大似然估計；後驗概率最大化；期望風險最小化；平滑方法樸素貝葉斯分類的定義如下： 1. 設 x = a1,a2, ..

sklearn庫學習之樸素貝葉斯分類器

樸素貝葉斯模型樸素貝葉斯模型的泛化能力比線性模型稍差，但它的訓練速度更快。它通過單獨檢視每個特徵來學習引數，並從每個特徵中收集簡單的類別統計資料。想要作出預測，需要將資料點與每個類別的統計資料進行比較，並將最匹配的類別作為預測結果。 GaussianNB應用於任意連續資料，

小白python學習——機器學習篇——樸素貝葉斯演算法

一.大概思路： 1.找出資料集合，所有一個單詞的集合，不重複，各個文件。 2.把每個文件換成0,1模型，出現的是1，就可以得到矩陣長度一樣的各個文件。 3.計算出3個概率，一是侮辱性的文件概率，二是侮辱性文件中各個詞出現的概率，三是非侮辱性文件中各個詞出現的概率。 4.二、三計算方法

機器學習實戰——樸素貝葉斯Python實現記錄

問題：regEx= re.compile('\\W*') 屬於列印錯誤。正確： regEx = re.compile('\W*') regEx = re.compile('\W*') 關於'\W' 和'\w'區別，可參考部落格：https://

機器學習之多項式貝葉斯分類器multinomialNB

機器學習之多項式貝葉斯分類器multinomialNB # -*- coding: utf-8 -*- """ Created on Sun Nov 25 11:28:25 2018 @author: muli """ from sklearn import nai

機器學習_13.樸素貝葉斯

樸素貝葉斯樸素貝葉斯試講連續取值的輸入對映為離散取值的輸出的演算法，用於解決分類問題。基本思想在與分析待分類樣本出現每個輸出類別中的後驗概率，並取最大後驗概率的類別作為分類的輸出。從模型最優化的角度看，樸素貝葉斯分類是平均意義上預測能力最優的模型，即使期望風險最小化。其中，期望風險是風險函式的

機器學習實戰-樸素貝葉斯

資料集參考自https://blog.csdn.net/c406495762/article/details/77341116 樸素貝葉斯：首先，何為樸素？樸素要求的是條件特徵之間相互獨立。我們都知道大名鼎鼎的貝葉斯公式，其實樸素貝葉斯的思想很簡單。就是通過計算屬於某一類別的後驗概率，然後比較大小，哪一類的

機器學習實戰——樸素貝葉斯

1 模型介紹 1.1 樸素貝葉斯分類器樸素貝葉斯是基於貝葉斯定理及特徵條件獨立的假設來實現分類的方法，就是在已知先驗概率的前提下，求後驗概率的最大值。設樣本集合為 xxx ，其屬性集合為 {x1,x2,⋯ ,xd}\{x_1,