1. 程式人生 > >詳解使用EM算法的半監督學習方法應用於樸素貝葉斯文本分類

詳解使用EM算法的半監督學習方法應用於樸素貝葉斯文本分類

post target 集中 之間 大量 ise 網上 tar 多項式

1.前言

  對大量需要分類的文本數據進行標記是一項繁瑣、耗時的任務,而真實世界中,如互聯網上存在大量的未標註的數據,獲取這些是容易和廉價的。在下面的內容中,我們介紹使用半監督學習和EM算法,充分結合大量未標記的樣本,以期獲得文本分類更高的準確率。本文使用的是多項式樸素貝葉斯作為分類器,通過EM算法進行訓練,使用有標記數據以及未標記的數據。研究了多類分類準確率與訓練集中未標記數據的比例之間的關系。並探索方法來降低EM過程的計算代價來加速訓練。結果顯示,半監督EM-NB分類器可以在只給2%標記數據情況下達到大於50%的準確率,在給定33%標記數據情況下達到大於70%的準確率。本文來源於參考中的附錄1,詳細代碼和介紹可以參見鏈接。

2.模型介紹

3.關鍵代碼實現

X.參考

附錄1:Text Classification Using EM and Semi-Supervised Learning

詳解使用EM算法的半監督學習方法應用於樸素貝葉斯文本分類