機器學習筆記5——樸素貝葉斯演算法

在上一講中，我們瞭解到了樸素貝葉斯以及laplace平滑。這一小節中，我們將要改進樸素貝葉斯演算法。原有的樸素貝葉斯中的特徵值xi是隻取0和1兩個值，現在要對樸素貝葉斯進行一般化，以適應於特徵值取值範圍為{1,2,...,k}這種情況。

一般化過程中，對p(xi|y)的建模不再是簡單的伯努力而是多項式分佈。事實上，即使原始的輸入特徵是連續的值，也可以將它離散化，將它們分為幾組離散值，然後再使用樸素貝葉斯演算法。

就以最開始的預測房屋價格這個問題舉例，如果輸入特徵xi代表房屋面積，那麼就可以將連續的值離散化為如下樣式：

因此，如果房屋面積為890平方英尺，我們可以將對應的特徵值xi設為3。之後就可以使用樸素貝葉斯演算法。當連續的特徵值並沒有用多元正態分佈進行良好的建模時，就可以通過對特徵離散化然後使用樸素貝葉斯演算法，這種方法也可以得到好的分類器結果。

針對文字分類的事件模型

上一節講述了生成學習演算法，下面將結束對這一演算法的討論並且介紹一種針對文字分類的模型。前面講到的樸素貝葉斯演算法在很多分類的問題上有良好的表現，那麼對於文字分類問題，有一個與其相關的模型的表現效果會更好。

在文字分類的特定語境下，樸素貝葉斯被稱作多變數伯努力事件模型（換個稱呼而已）。在這一模型中，我們假設電子郵件的生成方式：無論是垃圾郵件傳送者還是非垃圾郵件傳送者向你傳送下一封郵件，這封郵件都是隨機決定的（根據類先驗概率p(y)）。其次，郵件的傳送者決定郵件中是否包含某個單詞i，且每個單詞出現在郵件中的概率是獨立的。根據概率p(xi=1|y)=ϕi|y得到，一封郵件最終的概率為p

(y)∏ni=1p(xi|y)。

此處我們提出一個不同的模型，被稱作多項式事件模型。為了描述這一模型，我們會用不同的符號來代表郵件的一些特徵。xi代表郵件中的第i個單詞。因此，xi是一個整數且取值範圍為{1,...,|V|}，此處的|V|代表了字典的長度。一封包含n個單詞的郵件可以用長度為n的向量(x1,x2,...,xn)表示；此處的n針對不同的郵件有不同的值。舉個例子，如果一封郵件以“A NIPS …,”開頭，那麼x1=1（字典中的第一個單詞是“a”），x2=35000（如果“nips”在字典中處於第35000個位置）。

在多項式事件模型中，我們假設一封郵件的生成方式是通過一個隨機的過程，垃圾郵件還是非垃圾郵件一開始是隨機確定好了的（取決於p

(y)）。然後，郵件中的第一個單詞x1從多項式分佈中選取生成，第二個單詞x2與第一個單詞相互獨立，但都從多項式分佈中選取，接下來的x3，x4的選取也是如此，直到所有的n個單詞都生成成功。因此，一封郵件整體的概率為p(y)∏ni=1p(xi|y)。這個等式與之前講的多變數伯努力事件模型得到的概率更是相似，但是公式的含義是完全不一樣的。尤其是xi|y現在是多項式，而不是伯努力分佈。

在我們的心模型中引數ϕy=p(y)，p(xj=k|y=1) ϕi|y=0=p(xj=k|y=0)。我們之前假設了p(xj|y)對所有的j值的概率相同（郵件中生成的單詞無論位置如何，都不影響後續的概率計算）。

如果給出如下訓練集{(x(i),y(i));i=1,...,m}，其中x(i)=(x(i)1,x(i)2,...,x(i)ni)（其中，ni是在第i個訓練樣本中的單詞總數），關於引數的似然估計的等式如下：

分別對引數進行最大似然估計，等式分別如下：

當估計引數ϕk|y=0和ϕk|y=1時，如果我們使用Laplace平滑方法，那麼會在等式的分子上+1，分母上+|V|，然後更改後的等式如下所示：

儘管樸素貝葉斯演算法不一定是最好的分類演算法，但它的效果經常出乎意料的好。而且執行起來也非常的簡單好操作，不得不說是一個非常好的可以嘗試使用的演算法。

機器學習筆記5——樸素貝葉斯演算法

針對文字分類的事件模型

機器學習筆記5——樸素貝葉斯演算法

Python機器學習筆記：樸素貝葉斯演算法

【ML學習筆記】樸素貝葉斯演算法的demo（機器學習實戰例子）

機器學習之實戰樸素貝葉斯演算法

我的第一篇學習筆記——使用樸素貝葉斯演算法對文件分類詳解

機器學習系列之樸素貝葉斯演算法（監督學習-分類問題）

機器學習實戰（Machine Learning in Action）學習筆記————04.樸素貝葉斯分類（bayes）

機器學習實戰：樸素貝葉斯--學習筆記

【斯坦福---機器學習】複習筆記之樸素貝葉斯演算法

《機器學習實戰》學習筆記：樸素貝葉斯分類演算法

《機器學習實戰》學習筆記之樸素貝葉斯（Naive Bayes）

【機器學習實戰】樸素貝葉斯

統計學習筆記4—樸素貝葉斯法

統計學習筆記六----樸素貝葉斯

統計學習筆記之樸素貝葉斯

【機器學習】使用樸素貝葉斯進行文件分類

【十九】機器學習之路——樸素貝葉斯分類

機器學習：半樸素貝葉斯分類器

機器學習入門之樸素貝葉斯法

機器學習實戰之樸素貝葉斯

機器學習筆記5——樸素貝葉斯演算法

針對文字分類的事件模型

相關推薦