1. 程式人生 > >GeekDengshuo

GeekDengshuo

貝葉斯分類器

1.基礎知識

概率論的基本知識

先驗概率:由以往的資料得到的
後驗概率:得到資訊後再重新加以修正的概率         

條件風險公式(期望損失):

R(cix)=j=1NλijP(cjx)

其中,基於後驗概率P(cix) 可獲得將樣本x分類為ci所產生的期望損失(expected loss)

λij 是將一個真實標記為cj的樣本誤分類為ci所產生的損失

對於每個樣本 x 選擇能使後驗概率P(cx)最大的類別標記

基於貝葉斯定理,P(

cx) 可以寫成:

P(cx)=P(x,c)P(x)=P(c)P(xc)P(x)

先對聯合概率分佈P(x,c)進行建模,再求後驗概率

判別式模型&生成式模型

判別式模型(discriminative models):

給定X,可以通過直接建模P(cx)來預測c,簡單而又直接的辦法.例如:決策樹,神經網路,支援向量機都是判別式模型的範疇.

生成式模型(generative models):

先對聯合概率分佈P(x,c)建模,然後再由此獲得P(cx).典型的就是貝葉斯函式定理

後驗概率的最大化

對於類先驗概率(prior),P(c),是樣本空間中各類樣本所佔的比例,根據大數定律,當樣本足夠充足且獨立同分布時,可以用樣本出現的頻率來擬合概率.

類條件概率P(xc) 可能會出現屬性組合爆炸的情況,一般不能使用簡單的頻率估計.(對於簡單的樸素貝葉斯分類器,是可以直接使用頻率來表達概率)

注意區分 “未被觀測到”和”出現概率為零”

極大似然估計

Dc表示訓練集D中第c類樣本組成的集合,假設這些樣本獨立同分布.則引數θc對於資料集Dc的似然是:

P(Dcθc)
=P(xθc)

解決實際問題時,還需要考慮,連乘操作會導致數值的下溢 可以考慮使用對數似然方程ddθInL(θ)=0的方法:

LL(θc)=logP(Dcθc)
=xDclogP(xθc)