機器學習之路： python 樸素貝葉斯分類器預測新聞類別

阿新 • • 發佈：2018-04-29

groups group news ckey put epo test electron final

使用python3 學習樸素貝葉斯分類api

設計到字符串提取特征向量

歡迎來到我的git下載源代碼: https://github.com/linyi0604/kaggle

 1 from sklearn.datasets import fetch_20newsgroups
 2 from sklearn.cross_validation import train_test_split
 3 # 導入文本特征向量轉化模塊
 4 from sklearn.feature_extraction.text import CountVectorizer
 5 # 導入樸素貝葉斯模型
 6 from sklearn.naive_bayes import 
 MultinomialNB
 7 # 模型評估模塊
 8 from sklearn.metrics import classification_report
 9 
10 ‘‘‘
11 樸素貝葉斯模型廣泛用於海量互聯網文本分類任務。
12 由於假設特征條件相互獨立，預測需要估計的參數規模從冪指數量級下降接近線性量級，節約內存和計算時間
13 但是 該模型無法將特征之間的聯系考慮，數據關聯較強的分類任務表現不好。
14 ‘‘‘
15 
16 ‘‘‘
17 1 讀取數據部分
18 ‘‘‘
19 # 該api會即使聯網下載數據
20 news = fetch_20newsgroups(subset="all 
")
21 # 檢查數據規模和細節
22 # print(len(news.data))
23 # print(news.data[0])
24 ‘‘‘
25 18846
26 
27 From: Mamatha Devineni Ratnam <[email protected]>
28 Subject: Pens fans reactions
29 Organization: Post Office, Carnegie Mellon, Pittsburgh, PA
30 Lines: 12
31 NNTP-Posting-Host: po4.andrew.cmu.edu
32 
 
33 I am sure some bashers of Pens fans are pretty confused about the lack
34 of any kind of posts about the recent Pens massacre of the Devils. Actually,
35 I am  bit puzzled too and a bit relieved. However, I am going to put an end
36 to non-PIttsburghers‘ relief with a bit of praise for the Pens. Man, they
37 are killing those Devils worse than I thought. Jagr just showed you why
38 he is much better than his regular season stats. He is also a lot
39 fo fun to watch in the playoffs. Bowman should let JAgr have a lot of
40 fun in the next couple of games since the Pens are going to beat the pulp out of Jersey anyway. I was very disappointed not to see the Islanders lose the final
41 regular season game.          PENS RULE!!!
42 ‘‘‘
43 
44 ‘‘‘
45 2 分割數據部分
46 ‘‘‘
47 x_train, x_test, y_train, y_test = train_test_split(news.data,
48                                                     news.target,
49                                                     test_size=0.25,
50                                                     random_state=33)
51 
52 ‘‘‘
53 3 貝葉斯分類器對新聞進行預測
54 ‘‘‘
55 # 進行文本轉化為特征
56 vec = CountVectorizer()
57 x_train = vec.fit_transform(x_train)
58 x_test = vec.transform(x_test)
59 # 初始化樸素貝葉斯模型
60 mnb = MultinomialNB()
61 # 訓練集合上進行訓練， 估計參數
62 mnb.fit(x_train, y_train)
63 # 對測試集合進行預測 保存預測結果
64 y_predict = mnb.predict(x_test)
65 
66 ‘‘‘
67 4 模型評估
68 ‘‘‘
69 print("準確率:", mnb.score(x_test, y_test))
70 print("其他指標：\n",classification_report(y_test, y_predict, target_names=news.target_names))
71 ‘‘‘
72 準確率: 0.8397707979626485
73 其他指標：
74                            precision    recall  f1-score   support
75 
76              alt.atheism       0.86      0.86      0.86       201
77            comp.graphics       0.59      0.86      0.70       250
78  comp.os.ms-windows.misc       0.89      0.10      0.17       248
79 comp.sys.ibm.pc.hardware       0.60      0.88      0.72       240
80    comp.sys.mac.hardware       0.93      0.78      0.85       242
81           comp.windows.x       0.82      0.84      0.83       263
82             misc.forsale       0.91      0.70      0.79       257
83                rec.autos       0.89      0.89      0.89       238
84          rec.motorcycles       0.98      0.92      0.95       276
85       rec.sport.baseball       0.98      0.91      0.95       251
86         rec.sport.hockey       0.93      0.99      0.96       233
87                sci.crypt       0.86      0.98      0.91       238
88          sci.electronics       0.85      0.88      0.86       249
89                  sci.med       0.92      0.94      0.93       245
90                sci.space       0.89      0.96      0.92       221
91   soc.religion.christian       0.78      0.96      0.86       232
92       talk.politics.guns       0.88      0.96      0.92       251
93    talk.politics.mideast       0.90      0.98      0.94       231
94       talk.politics.misc       0.79      0.89      0.84       188
95       talk.religion.misc       0.93      0.44      0.60       158
96 
97              avg / total       0.86      0.84      0.82      4712
98 ‘‘‘

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

groups group news ckey put epo test electron final 使用python3 學習樸素貝葉斯分類api 設計到字符串提取特征向量歡迎來到我的git下載源代碼: https://github.com/linyi0604/kag

機器學習之路： python 實踐提升樹 XGBoost 分類器

git mac class form 樹模型機器 AS sta imp git: https://github.com/linyi0604/MachineLearning 數據集被我下載到本地，可以去我的git上拿數據集 XGBoost提升分類器屬於集成學習模型

機器學習：半樸素貝葉斯分類器

請點選上面公眾號，免費訂閱。主要推送關於對演算法的思考以及應用的訊息。培養思維能力，注重過程，挖掘背後的原理，刨根問底。本著嚴謹和準確的態度，目標是撰寫實用和啟發性的文章，歡迎您的關注。 0

機器學習（十二）樸素貝葉斯分類

樸素貝葉斯分類作者：hjimce 本篇博文是我學習《機器學習實戰》這邊書時候的學習筆記。記得之前看到這個演算法名的時候，我以為很難，因為我不是很喜歡概率論的知識，其實最主要的原因是因為已經概率論的相關知識都忘光了，所以一直不想去複習，於是就覺得這個演算法不好學。不

機器學習實戰第四章——樸素貝葉斯分類(原始碼解析)

樸素貝葉斯分類 #coding=utf-8 ''' Created on 2016年1月9日 @author: admin ''' from numpy import * # 載入資料集函式 def loadDataSet(): # 定義郵件列表 p

機器學習-帶你搞懂樸素貝葉斯分類演算法

帶你搞懂樸素貝葉斯分類演算法你搞懂樸素貝葉斯分類算貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單，也是常見的一種分類方法。這篇文章我儘可能用直白的話語總結一下我們學習會上講到的樸素貝葉斯分

Python 樸素貝葉斯分類器

def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', '

【原創】.NET平臺機器學習元件-Infer.NET連載(二)貝葉斯分類器

關於本文件的說明　　本文件基於Infer.NET 2.6對Infer.NET User Guide進行中文翻譯，但進行了若干簡化和提煉，按照原網站的思路進行，但不侷限與其順序。　　歡迎傳播分享，必須保持原作者的資訊，但禁止將該文件直接用於商業盈利。　　本人正在研究基於Infer.NET元件，並

機器學習之路： python 支持向量機手寫字體識別

1.0 tar 下載分類字體 ID 導入所有 load 使用python3 學習sklearn中支持向量機api的使用可以來到我的git下載源代碼：https://github.com/linyi0604/kaggle 1 # 導入手寫字體加載器 2

機器學習之路：python支持向量機回歸SVR 預測波士頓地區房價

sta val dict min shape 支持 RR 訓練數據采樣 python3 學習使用api 支持向量機的兩種核函數模型進行預測 git: https://github.com/linyi0604/MachineLearning from sklear

機器學習之路：python 特征降維主成分分析 PCA

repo nts total python learning bsp ota spa 像素 python3 學習api使用主成分分析方法實現降低維度使用了網絡上的數據集，我已經下載到了本地，可以去我的git上參考 git:https://github.com/lin

機器學習之路： python線性回歸過擬合 L1與L2正則化

擬合 python sco bsp orm AS score 未知數 spa git：https://github.com/linyi0604/MachineLearning 正則化：提高模型在未知數據上的泛化能力避免參數過擬合正則化常用的方法：在目

機器學習之路： python 實踐 word2vec 詞向量技術

fetch 分離 ext .com work bsp re.sub 最終 mat git: https://github.com/linyi0604/MachineLearning 詞向量技術 Word2Vec 每個連續詞匯片段都會對後面有一定制約稱為上下

用Python開始機器學習（6：樸素貝葉斯分類器）

樸素貝葉斯分類器是一個以貝葉斯定理為基礎，廣泛應用於情感分類領域的優美分類器。本文我們嘗試使用該分類器來解決上一篇文章中影評態度分類。1、貝葉斯定理假設對於某個資料集，隨機變數C表示樣本為C類的概率，F1表示測試樣本某特徵出現的概率，套用基本貝葉斯公式，則如下所示：上式表示對

機器學習：貝葉斯分類器（二）——高斯樸素貝葉斯分類器代碼實現

mod ces 數據大於等於即使平均值方差很多 mode 一高斯樸素貝葉斯分類器代碼實現網上搜索不調用sklearn實現的樸素貝葉斯分類器基本很少，即使有也是結合文本分類的多項式或伯努利類型，因此自己寫了一遍能直接封裝的高斯類型NB分類器，當然與真正的源碼相

機器學習筆記（五）：樸素貝葉斯分類器

一、概述 1.1 簡介樸素貝葉斯（Naive Bayesian）是基於貝葉斯定理和特徵條件獨立假設的分類方法，它通過特徵計算分類的概率，選取概率大的情況進行分類，因此它是基於概率論的一種機器學習分類方法。因為分類的目標是確定的，所以也是屬於監督學習。 Q1：什麼是基於概率論的方

【機器學習實踐】用Python實現樸素貝葉斯分類器

閱讀學習了《機器學習》第7章的貝葉斯分類器後，為了加深理解和加強python的程式碼能力，因此嘗試使用Python實現樸素貝葉斯分類器，由於初學Python的緣故，程式碼的一些實現方法可能比較繁瑣，可閱讀性有待提高。程式碼如下： #import numpy a

機器學習實戰——python實現簡單的樸素貝葉斯分類器

機器學習：樸素貝葉斯分類器，決策函式向量化處理，mask使用技巧

文章目錄前面實現的樸素貝葉斯分類器，決策函式是非向量化的：藉助於numpy向量化處理，相當於平行計算，注意mask使用技巧，用途較廣：前面實現的樸素貝葉斯分類器，決策函式是非向量化的：前面提到過大資料處理，儘量避免個人的遍歷等一些函式

機器學習：樸素貝葉斯分類器程式碼實現，決策函式非向量化方式

文章目錄樸素貝葉斯離散型的演算法描述：程式碼實現：實現一個NaiveBayes的基類，以便擴充套件：實現離散型樸素貝葉斯MultiomialNB類：實現從檔案中讀取資料：測試資料：程式碼測試：

機器學習之路： python 樸素貝葉斯分類器 預測新聞類別

相關推薦

機器學習之路： python 樸素貝葉斯分類器預測新聞類別