【SciKit-Learn學習筆記】6:樸素貝葉斯做文件分類並繪製混淆矩陣
阿新 • • 發佈:2018-12-26
學習《scikit-learn機器學習》時的一些實踐。
條件獨立
樸素即指的是條件獨立假設,假設n個特徵之間不相關,則可據聯合概率的條件展開式:
將其中的
變為
從而,樸素貝葉斯下的聯合概率可展開為:
右側的每一項都可從資料集中統計出來,因此可通過計算和比較聯合概率來比較後驗概率,以對類別做判斷。
對於連續的特徵值,可以通過區間劃分形成離散值。但對於小資料集,這樣做的偏差太大。可以通過考慮該特徵作為隨機變數的概率分佈,計算其統計量並放入相應的概率分佈函式模型中做計算。如計算方差 和均值 便可得到正態分佈的概率密度函式。
概率分佈
概率分佈是描述隨機變數的概率規律。
PDF和PMF
概率密度函式(PDF)用於描述連續型隨機變數在某個特定值的可能性,概率質量函式(PMF)用於描述離散型隨機變數在某個特定值的可能性。
伯努利分佈
即零一分佈、兩點分佈,意在非黑即白:
類別分佈
不止兩種情況,即可能有多種情況: