GeekDengshuo
阿新 • • 發佈:2019-01-23
貝葉斯分類器
1.基礎知識
概率論的基本知識
先驗概率:由以往的資料得到的
後驗概率:得到資訊後再重新加以修正的概率
條件風險公式(期望損失):
其中,基於後驗概率 可獲得將樣本x分類為所產生的期望損失(expected loss)
是將一個真實標記為的樣本誤分類為所產生的損失
對於每個樣本 選擇能使後驗概率最大的類別標記
基於貝葉斯定理, 可以寫成:
先對聯合概率分佈進行建模,再求後驗概率
判別式模型&生成式模型
判別式模型(discriminative models):
給定X,可以通過直接建模來預測c,簡單而又直接的辦法.例如:決策樹,神經網路,支援向量機都是判別式模型的範疇.
生成式模型(generative models):
先對聯合概率分佈建模,然後再由此獲得.典型的就是貝葉斯函式定理
後驗概率的最大化
對於類先驗概率(prior),,是樣本空間中各類樣本所佔的比例,根據大數定律,當樣本足夠充足且獨立同分布時,可以用樣本出現的頻率來擬合概率.
類條件概率 可能會出現屬性組合爆炸的情況,一般不能使用簡單的頻率估計.(對於簡單的樸素貝葉斯分類器,是可以直接使用頻率來表達概率)
注意區分 “未被觀測到”和”出現概率為零”
極大似然估計
表示訓練集中第類樣本組成的集合,假設這些樣本獨立同分布.則引數對於資料集的似然是:
解決實際問題時,還需要考慮,連乘操作會導致數值的下溢 可以考慮使用對數似然方程的方法: