1. 程式人生 > >統計學習方法四 樸素貝葉斯分類

統計學習方法四 樸素貝葉斯分類

和數 com .com 條件概率 統計學習 http 模型 適用場景 es2017

樸素貝葉斯分類

1,基本概念

    技術分享

2,算法流程

   關鍵點:理解先驗概率,條件概率,最大後驗概率,下面是以極大似然估計的

  技術分享

  技術分享

  技術分享

3,算法改進(貝葉斯估計)

   上述用極大似然估計可能會出現所要估計的概率值為0的情況,改進方法:

  先驗概率貝葉斯估計:K表示類別數,λ為參數:0時為極大似然估計;1時為拉普拉斯平滑

    技術分享

  條件概率貝葉斯估計:S為某個特征的離散種類

      技術分享

  技術分享

4,總結

    技術分享

樸素貝葉斯的主要優點有:

    1)樸素貝葉斯模型發源於古典數學理論,有穩定的分類效率。

    2)對小規模的數據表現很好,能個處理多分類任務,適合增量式訓練,尤其是數據量超出內存時,我們可以一批批的去增量訓練。

    3)對缺失數據不太敏感,算法也比較簡單,常用於文本分類。

    樸素貝葉斯的主要缺點有:   

    1) 理論上,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率。但是實際上並非總是如此,這是因為樸素貝葉斯模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,在屬性個數比較多或者屬性之間相關性較大時,分類效果不好。而在屬性相關性較小時,樸素貝葉斯性能最為良好。對於這一點,有半樸素貝葉斯之類的算法通過考慮部分關聯性適度改進。

    2)需要知道先驗概率,且先驗概率很多時候取決於假設,假設的模型可以有很多種,因此在某些時候會由於假設的先驗模型的原因導致預測效果不佳。

    3)由於我們是通過先驗和數據來決定後驗的概率從而決定分類,所以分類決策存在一定的錯誤率。

    4)對輸入數據的表達形式很敏感。

樸素貝葉斯適用場景:

    1)不同維度之間相關性較小,離散屬性的數據

統計學習方法四 樸素貝葉斯分類