1. 程式人生 > >《統計學習方法》筆記——樸素貝葉斯演算法

《統計學習方法》筆記——樸素貝葉斯演算法

樸素貝葉斯演算法概述

樸素貝葉斯(naive Bayes)法是基於貝葉斯定理與特徵條件獨立假設的分類方法。對於給定的訓練資料集,首先基於特徵條件獨立假設學習輸入/輸出的聯合概率分佈;然後基於此模型,對於給定的輸入x,利用貝葉斯定理求出後驗概率最大的輸出y。

演算法流程

1.樸素貝葉斯法是典型的生成學習方法,生成方法由訓練資料學習聯合概率分佈P(X,Y),然後求得後驗概率分佈P(Y|X)。即,利用訓練資料學習P(X|Y)和P(Y)的估計,得到聯合概率分佈:

P(X,Y)=P(Y)P(X|Y)
概率估計方法可以是極大似然估計或貝葉斯估計。
2.樸素貝葉斯的基本假設是條件獨立,P(X=x|Y=
ck)=P(X(1)=x(1),...,X(n)=x(n)|Y=ck)=j=1nP(X(j)=x(j)|Y=ck)

這是一個較強的假設。由於這一假設,模型包含的條件概率的數量大為減少,樸素貝葉斯的學習與預測大為簡化。因而樸素貝葉斯演算法高效且易於實現,其缺點是分類的效能不一定很高。
3.樸素貝葉斯法利用貝葉斯定理與學到的聯合概率模型進行分類預測。P(Y|X)=P(X,Y)P(X)=P(Y)P(X|Y)YP(Y)P(X|Y)

將輸入x分到後驗概率最大的類y。

y=argmaxP(Y=ck)j=1nP(Xj=x(j)|Y=ck)
後驗概率最大等價於0-1損失函式時的期望風險最小化。

優缺點及適用範圍

優點:在資料較小的情況下仍然有效,可以處理多類別問題。
缺點:對於輸入資料的準備方式較為敏感。
適用資料型別:標稱型資料。