1. 程式人生 > >機器學習筆記2

機器學習筆記2

樸素貝葉斯法(Naive Bayes)是另一個簡單直觀的分類演算法。顧名思義,它的核心是貝葉斯公式。
我們先看看最基本的貝葉斯公式:

P(y|x)=P(x|y)(y)P(x),(1) 對應到分類問題,x 是特徵向量,y 是分類結果。P(y|x) 的直觀含義就是在給定特徵x的情況下,例項的類別是y 的概率。
接下來的事情就是要計算P(x|y) 、P(y) 和P(x) 。 P(x|y)===P(X=x|Y=y)P(X(1)=x(1),X(2)=x(2),...,X(n)=x(n)|Y=Ck)j=1nP(X(l)=x(l)|Y=Ck),(2) P(y)=P(Y=Ck),(3) P
(x)
 可以用全概率公式展開,然後假設各個特徵獨立,計算聯合概率得到: P(x)===P(X=x)P(X(1)=x(1),X(2)=x(2),..,X(n)=x(n))kP(Y=Ck)j=1nP(X(j)=x(j)|Y=Ck),(4) 將(2)(3)(4)代入(1)得到: P(Y=Ck|X=x)=P(Y=Ck)nj=1P(X(j)=x(j)|Y=Ck)kP(Y=Ck)nj=1P(X(j)=x(j)|Y=Ck),(5) 上面公式中,在一次分類任務中,對於所有地Y=Ck 都是一樣地,所以樸素貝葉斯分類器可以簡化表示成: y=f(x)=argmax(P(Y=Ck)j=1n
P(X(j)=x(j)|Y=Ck)),(6)
接下來,需要計算得到P(Y=Ck) 和 nj=1P(X(j)=x(j)|Y=Ck) 。這2個需要用引數估計的方法得到。我就把極大似然估計複習了一下。但是遇到了疑惑,使用極大似然估計需要知道樣本的分佈函式。但在實際應用中,怎麼提前知道呢?後來一想,只要保證了標註樣本的數量和質量,樣本的分佈就可以近似表示實際的分佈了。那麼P(Y=Ck) 只需要統計它在樣本中的概率即可。