1. 程式人生 > >樸素貝葉斯演算法-My way of ML7

樸素貝葉斯演算法-My way of ML7

預備知識

聯合概率:包含多個條件,所有條件同時成立概率P(A,B)=P(A)P(B)

條件概率:事件A發生在事件B發生的條件之下的概率。所有的特徵值無關的時候才能適用條件概率

樸素貝葉斯的前提是:

特徵條件獨立,哈哈,這也是她被叫做樸素的原因,因為特徵之間很難獨立是自然條件下的情況,所以很樸素。。。

樸素貝葉斯演算法大多被用在文字分類,關於文字分類的特徵抽取看這個

理論基礎

w是給定文件的特徵值,c是文件分類 p(科技|F1,F2,F3)在詞123出現的條件下是科技文章的概率=p(F1,F2,F3|科技)科技文章出現詞123的概率*p(科技)科技文章的概率/p(F1,F2,F3)詞123出現的概率

p(F1,F2,F3|科技)科技文章出現詞123的概率=在科技文章中詞123出現次數除所有詞出現次數

p(科技)~科技文章的概率=科技文章出現次數/所有文章數

p(F1,F2,F3)詞123出現的概率=在所有文章中詞123出現次數除所有詞出現次數

獲取新聞20年資料

如何獲取流行資料集和劃分資料集看這 在這裡插入圖片描述

演算法流程就是 劃分資料集,訓練資料集,得出準確率 在這裡插入圖片描述

關於精確率和召回率是度量分類演算法的一種衡量標準,後面的文章中會詳細說。最後的結果如下,如果想要完整程式碼可以私信 在這裡插入圖片描述

可以看得出貝葉斯演算法的準確率很高,對了應該叫樸素貝葉斯,畢竟這個演算法應用的大前提是錯誤的。