機器學習學習筆記第十六章基於貝葉斯的新聞分類

阿新 • • 發佈：2018-12-13

利用貝葉斯分類器進行文字分類

考慮情況 1

對於文字分析，首先我們應該先利用停用詞語料庫對部分大量出現的停用詞進行遮蔽，可以百度直接搜停用詞進行下載
我們對於經常出現的詞，有可能是一個不太重要的詞，比如《中國蜜蜂養殖》，其中中國出現頻率可能比蜜蜂和養殖都高，而我們應該弱化中國這個詞的權重，這裡我們引入詞頻（Term Frequency）和“逆文件頻率”（Inverse Document Frequency) $詞頻 (TF)=\frac{某個詞在文章中出現的次數}{該文出現次數最多的詞的出現次數}$ $逆文件頻率 (IDF)=\log{(\frac{語料庫的文件總數}{包含該詞的文件數 +1})}$
則我們提出 TF-IDF 的概念： $TF-IDF= 詞頻 (TF)\times 逆文件頻率 (IDF)$

考慮情況 2：相似度

句子 A：我喜歡看電視，不喜歡看電影
句子 B：我不喜歡看電視，也不喜歡看電影

我們要考慮以下步驟：

分詞：
- 句子 A：我 / 喜歡 / 看 / 電視，不 / 喜歡 / 看 / 電影。
- 句子 B：我 / 不 / 喜歡 / 看 / 電視，也 / 不 / 喜歡 / 看 / 電影。
拆分成語料庫：
- 我，喜歡，看，電視，電影，不，也
計算詞頻：
- 句子 A：我 1，喜歡 2，看 2，電視 1，電影 1，不 1，也 0。
- 句子 B：我 1，喜歡 2，看 2，電視 1，電影 1，不 2，也 1。
生成詞頻向量：
- 句子 A：[1, 2, 2, 1, 1, 1, 0]
- 句子 B：[1, 2, 2, 1, 1, 2, 1]
判斷相似度 $\cos{\theta}=\frac{\sum_{i=1}^n(A_i\times B_i)}{\sqrt{\sum_{i=1}^n (A_i^2)}\times\sqrt{\sum_{i=1}^n(B_i)^2}}$ 在這個句子中： $\cos{\theta} =\frac{1\times 1+2\times 2+2\times 2+1\times 1+1\times 2+0\times 1}{\sqrt{1^2+2^2+2^2+1^2+1^2+1^2+0^2}+\sqrt{1^2+2^2+2^2+1^2+1^2+2^2+1^2}}$ $=\frac{13}{\sqrt{12}\times \sqrt{16}}$ $=0.938$

後續可以進行處理的方法

word2vec
Gensim（效果非常好）

教程中用到的語料庫資料來源搜狗實驗室

文字分類正式開始，詳細步驟如下：

讀取文字檔案，載入到pandas中，並且去除不存在的元素
使用jieba分詞器進行分詞
將分完的詞存到列表中
載入停用詞表，並應用到裡面，刪掉沒用的詞語
利用TF-IDF提取關鍵詞
- 主要用到jieba.analyse中的jieba.analyse.extract_tags()
轉成LDA模型(Latent Dirichlet Allocation)
嘗試分類
- 先將類別轉換成數字形式
- 切分資料集，分成train和test
- 通過訓練後可以通過閱讀新聞詳情，給新聞歸類到某一個固定的類別中，此處分了10大類
- 具體分類並預測的程式碼如下：

df_train = pd.DataFrame({'contents_clean': contents_clean, 'label': df_news['category']})
df_train.tail()

df_train.label.unique()

label_mapping = {"汽車": 1, "財經": 2, "科技": 3, "健康": 4, "體育":5, "教育": 6,"文化": 7,"軍事": 8,"娛樂": 9,"時尚": 0}
df_train['label'] = df_train['label'].map(label_mapping)
df_train.head()

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(df_train['contents_clean'].values, df_train['label'].values)

len(x_test)

words = []
for line_index in range(len(x_train)):
    try:
        words.append(' '.join(x_train[line_index]))
    except:
        print(line_index, word_index)
words[0]

from sklearn.feature_extraction.text import CountVectorizer

vec = CountVectorizer(analyzer='word', max_features=4000, lowercase=False)
vec.fit(words)

from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(vec.transform(words), y_train)

test_words = []
for line_index in range(len(x_test)):
    try:
        test_words.append(' '.join(x_test[line_index]))
    except:
        print(line_index, word_index)
test_words[0]

classifier.score(vec.transform(test_words), y_test)

附上完整程式程式碼

import pandas as pd
import jieba
import numpy as np

df_news = pd.read_table('data/train.txt', names=['category', 'theme', 'URL', 'content'], encoding='utf-8')
df_news = df_news.dropna()
df_news.shape

(50000, 4)

分詞：使用jieba分詞器

content = df_news.content.values.tolist()

content_S = []
for line in content:
    current_segment = jieba.lcut(line)
    if len(current_segment)>1 and current_segment != '\r\n':
        content_S.append(current_segment)

print(content_S[1000])

df_content = pd.DataFrame({'content_S':content_S})
df_content.head()

stopwords = pd.read_csv('stopwords.txt', index_col=False, sep='\t', quoting=3, names=['stopword'], encoding='utf-8')
stopwords.head()

def drop_stopwords(contents, stopwords):
    contents_clean = []
    all_words = []
    for line in contents:
        line_clean = []
        for word in line:
            if word in stopwords:
                continue
            line_clean.append(word)
            all_words.append(str(word))
        contents_clean.append(line_clean)
    return contents_clean, all_words

contents = df_content.content_S.values.tolist()
stopwords = stopwords.stopword.values.tolist()
contents_clean, all_word = drop_stopwords(contents, stopwords)

df_all_words = pd.DataFrame({'all_words':all_word})
df_all_words.head()

df_content = pd.DataFrame({'contents_clean': contents_clean})
df_content.head()

words_count = df_all_words.groupby(['all_words'])['all_words'].agg({'count':np.size})
words_count = words_count.reset_index().sort_values(by=['count'], ascending=False)
words_count.head()

from wordcloud import WordCloud
import matplotlib.pyplot as plt
import matplotlib
matplotlib.rcParams['figure.figsize'] = (100, 50)
%matplotlib inline
wordcloud = WordCloud(font_path = 'data/simhei.ttf', background_color='white', max_font_size=100)
word_freq = {x[0]:x[1] for x in words_count.head(500).values}
wordcloud = wordcloud.fit_words(word_freq)
plt.imshow(wordcloud)
plt.show()
# plt.savefig('save.png', dpi=100)

不知道為什麼我生成出來的影象清晰度很低，求大神解釋

TF_IDF：提取關鍵詞

import jieba.analyse
index = 2000
print(df_news['content'][index])
content_S_str = ''.join(content_S[index])
print('  '.join(jieba.analyse.extract_tags(content_S_str, topK=5, withWeight = False)))

LDA: 主題模型

from gensim import corpora, models, similarities
import gensim

#做對映，相當於詞袋
dictionary = corpora.Dictionary(contents_clean)
corpus = [dictionary.doc2bow(sentence) for sentence in contents_clean]

lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20)

print(lda.print_topic(1))

df_train = pd.DataFrame({'contents_clean': contents_clean, 'label': df_news['category']})
df_train.tail()

df_train.label.unique()

label_mapping = {"汽車": 1, "財經": 2, "科技": 3, "健康": 4, "體育":5, "教育": 6,"文化": 7,"軍事": 8,"娛樂": 9,"時尚": 0}
df_train['label'] = df_train['label'].map(label_mapping)
df_train.head()

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(df_train['contents_clean'].values, df_train['label'].values)
#將資料劃分成訓練集和測試集，這個函式的用途就是講傳入的內容進行隨機劃分

len(x_test)

words = []
for line_index in range(len(x_train)):
    try:
        words.append(' '.join(x_train[line_index]))
    except:
        print(line_index, word_index)
words[0]

from sklearn.feature_extraction.text import CountVectorizer

vec = CountVectorizer(analyzer='word', max_features=4000, lowercase=False)
vec.fit(words)

from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(vec.transform(words), y_train)

test_words = []
for line_index in range(len(x_test)):
    try:
        test_words.append(' '.join(x_test[line_index]))
    except:
        print(line_index, word_index)
test_words[0]

classifier.score(vec.transform(test_words), y_test)#算出最終的分類準確度為0.83左右

對唐宇迪老師的機器學習教程進行筆記整理編輯日期：2018-10-5 小白一枚，請大家多多指教

機器學習學習筆記第十六章基於貝葉斯的新聞分類

利用貝葉斯分類器進行文字分類考慮情況 1 對於文字分析，首先我們應該先利用停用詞語料庫對部分大量出現的停用詞進行遮蔽，可以百度直接搜停用詞進行下載我們對於經常出現的詞，有可能是一個不太重要的詞，比

強化學習（RLAI）讀書筆記第十六章Applications and Case Studies（alphago）

強化學習（RLAI）讀書筆記第十六章Applications and Case Studies（alphago） 16.6 Mastering the Game of Go 16.6.1 AlphaGo 16.6.2 AlphaG

強化學習（RLAI）讀書筆記第十六章Applications and Case Studies（不含alphago）

強化學習（RLAI）讀書筆記第十六章Applications and Case Studies（不含alphago） 16.1 TD-Gammon 16.2 Samuel's Checkers Player 16.3 Watson‘s Dail

《機器學習西瓜書》學習筆記——第七章_貝葉斯分類器_樸素貝葉斯分類器

樸素：特徵條件獨立；貝葉斯：基於貝葉斯定理。樸素貝葉斯是經典的機器學習演算法之一，也基於概率論的分類演算法，屬於監督學習的生成模型。樸素貝葉斯原理簡單，也很容易實現，多用於文字分類，比如垃圾郵件過濾。 1.演算法思想——基於概率的預測貝葉斯決策論是概率框架下

《C++primer(第五版)》學習之路-第十六章：模板與泛型程式設計

算法導論筆記——第十六章貪心算法

一個出現預處理優化節點求解多選數據結構集中通常用於最優化問題，我們做出一組選擇來達到最優解。每步都追求局部最優。對很多問題都能求得最優解，而且速度比動態規劃方法快得多。 16.1 活動選擇問題按結束時間排序，然後選擇兼容活動。定理16.1 考慮任意

C++Primer Plus筆記——第十六章 string類和標準模板庫總結及程式清單

目錄本章小結程式清單標準模板庫泛型程式設計函式物件演算法其他庫本章小結 C++提供了一組功能強大的庫，這些庫提供了很多常見程式設計問題的解決方案以及簡化其他問題的工具。 string類為將字串

機器學習筆記（六）：貝葉斯分類器

機器學習所研究的主要內容，是關於在計算機上從資料中產生“模型”的演算法，這個產生的模型大體上可以分為“判別式模型”和“生成式模型”兩大類。其中判別式模型是給定x，通過直接對條件概率分佈P（y|x）進行建模來預測y。這種方法尋找不同類別的最優分類面，反映的是異類資料之間的差異。之前幾篇文章中介紹

機器學習實戰第四章——樸素貝葉斯分類(原始碼解析)

樸素貝葉斯分類 #coding=utf-8 ''' Created on 2016年1月9日 @author: admin ''' from numpy import * # 載入資料集函式 def loadDataSet(): # 定義郵件列表 p

周志華《機器學習》之第七章（貝葉斯分類器）概念總結

貝葉斯分類器是利用概率的知識完成資料的分類任務，在機器學習中使用貝葉斯決策論實施決策的基本方法也是在概率的框架下進行的，它是考慮如何基於這些概率和誤判損失來選擇最優的類別標記。 1、貝葉斯決策論條件風險：假設有N種可能的類別標記，Y={c1,c2,c3

《HTTP 權威指南》筆記:第十六章&第十七章國際化、內容協商與轉碼

二進制首部指南生成文檔緩存 -type nat lang 緩存代理《HTTP 權威指南》筆記:第十六章國際化客戶端通過在請求報文中的 Accept-Language 首部和 Accept-Charset 首部來告知服務器:“我理解這些語言.&rd

機器學習筆記（五）：樸素貝葉斯分類器

一、概述 1.1 簡介樸素貝葉斯（Naive Bayesian）是基於貝葉斯定理和特徵條件獨立假設的分類方法，它通過特徵計算分類的概率，選取概率大的情況進行分類，因此它是基於概率論的一種機器學習分類方法。因為分類的目標是確定的，所以也是屬於監督學習。 Q1：什麼是基於概率論的方

機器學習（十二）樸素貝葉斯分類

樸素貝葉斯分類作者：hjimce 本篇博文是我學習《機器學習實戰》這邊書時候的學習筆記。記得之前看到這個演算法名的時候，我以為很難，因為我不是很喜歡概率論的知識，其實最主要的原因是因為已經概率論的相關知識都忘光了，所以一直不想去複習，於是就覺得這個演算法不好學。不

資料科學和人工智慧技術筆記十六、樸素貝葉斯

十六、樸素貝葉斯作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 伯努利樸素貝葉斯伯努利樸素貝葉斯分類器假設我們的所有特徵都是二元的，它們僅有兩個值（例如，已經是獨熱編碼的標稱分類特徵）。 # 載入庫 import

【機器學習－西瓜書】七、樸素貝葉斯分類器

推薦閱讀：拉普拉斯修正 7.3樸素貝葉斯分類器關鍵詞：樸素貝葉斯；拉普拉斯修正上一小節我們知道貝葉斯分類器的分類依據是這公式：P(c∣x)=P(x,c)P(x)=P(c)⋅P(c∣x)P(x) ，對於每個樣本而言，分母P(x)=∑mi=1P(

第七章　貝葉斯分類器的推導及實現

貝葉斯分類器 1.基本的概率論知識先驗概率:由以往的資料得到的後驗概率:得到資訊後再重新加以修正的概率 R(ci∣x)=∑j=1NλijP(cj∣x)R(ci∣x)=∑j=1NλijP(cj∣x) 對於每個樣本　xx　選擇

第五篇：樸素貝葉斯分類演算法原理分析與程式碼實現

1 #==================================== 2 # 輸入: 3 # 空 4 # 輸出: 5 # postingList: 文件列表 6 # classVec: 分類標籤列表 7 #=

《機器學習》周志華學習筆記第十四章概率圖模型（課後習題）python實現

一、基本內容 1.隱馬爾可夫模型 1.1. 假定所有關心的變數集合為Y,可觀測變數集合為O,其他變數集合為R, 生成式模型考慮聯合分佈P(Y,R,O),判別式模型考慮條件分佈P(Y,R|O)，給定一組觀測變數值，推斷就是要由P(Y,R,O)或者P(Y,R|O)得到條件概率分佈P(Y,

C++學習筆記——C++ Primer Plus中文第六版第十六章STL程式設計練習解答

發現答案資源不全，因此貼出自己的解答，都為STL應用基礎題，如有謬誤，還請不吝賜教。第一題要求：迴文字串判斷（假定字串中沒有大小寫、空格、標點符號等問題）解答： #include<iostream> #include<string>

機器學習學習筆記第十五章貝葉斯演算法

貝葉斯演算法貝葉斯要解決的問題正向概率逆向概率舉例：一個班級中，男生 60%，女生 40%，男生總是穿長褲，女生則一半穿長褲一半穿裙子正向概率：隨機選取一個學生，他（她）穿長褲的概率和穿

機器學習學習筆記 第十六章 基於貝葉斯的新聞分類

利用貝葉斯分類器進行文字分類

考慮情況 1

考慮情況 2：相似度

我們要考慮以下步驟：

後續可以進行處理的方法

word2vec

Gensim（效果非常好）

教程中用到的語料庫資料來源搜狗實驗室

文字分類正式開始，詳細步驟如下：

附上完整程式程式碼

分詞：使用jieba分詞器

不知道為什麼我生成出來的影象清晰度很低，求大神解釋

TF_IDF：提取關鍵詞

LDA: 主題模型

相關推薦

機器學習學習筆記第十六章基於貝葉斯的新聞分類