機器學習-分類演算法之樸素貝葉斯
阿新 • • 發佈:2019-01-31
條件概率公式:P(A|B) = P(AB)/P(B)
貝葉斯定理:P(A|B) = P(B|A)P(A)/P(B)
樸素貝葉斯演算法思想:給定一個待分類的資料 X={a1,a2,……,aN},即N個特徵項,目標分類集合Y={y1,y2,……,yK},即有K個分類
通過計算P(yi|X),分別計算K個分類的條件概率,然後取概率最大條件,假如為P(yj|X),那麼X就被分到了yj這個類別裡
演算法推導:
為了求最大的P(yi|X),我們對P(yi|X)進行處理
P(yi|X) = P(X|yi)P(yi)/P(X)
那麼就是求P(X|yi)P(yi)/P(X) 的最大值,由於P(X)概率一樣,所以就是求P(X|yi)P(yi)的最大值
如果X的各個特徵值是相互獨立的:
所以P(X|yi) = P(a1|yi)P(a2|yi)….P(aN|yi)
那麼P(X|yi)P(yi) = P(yi)P(a1|yi)P(a2|yi)….P(aN|yi)
所以就是求P(yi)P(a1|yi)P(a2|yi)….P(aN|yi) 的最大值
在訓練樣本中P(yi)的值是可以求出來的
在訓練樣本中每個分類下P(aj|yi)每個特徵值的概率也是可以求出來的
進而就可以確定X資料的最終分類結果