15.【進階】特徵提升之特徵抽取--CountVectorizer和TfidfVectorizer

阿新 • • 發佈：2019-02-19

#學習目標1:使用CountVectorizer和TfidfVectorizer對非結構化的符號化資料(如一系列字串)進行特徵抽取和向量化

from sklearn.datasets import fetch_20newsgroups
#從網際網路上即時下載新聞樣本，subset = 'all'引數表示下載全部近2萬條文字檔案
# subset : 'train' or 'test', 'all', optional
# Select the dataset to load: 'train' for the training set, 'test'
# for the test set, 'all' for both, with shuffled ordering. 

news = fetch_20newsgroups(subset='all')
#分割資料集
from sklearn.cross_validation import train_test_split
X_train,X_test,y_train,y_test = train_test_split(news.data,news.target,test_size=0.25,random_state=33)
#用CountVectorizer提取特徵
from sklearn.feature_extraction.text import CountVectorizer
count_vec=CountVectorizer()
X_count_train = count_vec.fit_transform(X_train)
X_count_test = count_vec.transform(X_test)
#使用樸素貝葉斯分類器來訓練模型並預測 

from sklearn.naive_bayes import MultinomialNB
mnb_count = MultinomialNB()
mnb_count.fit(X_count_train,y_train)
y_count_predict = mnb_count.predict(X_count_test)
print 'The Accuracy of mnb(CountVectorizer) is',mnb_count.score(X_count_test,y_test)
from sklearn.metrics import classification_report
print 
 classification_report(y_test,y_count_predict,target_names=news.target_names)
#由輸出結果可知，使用CountVectorizer在不去掉停用詞的條件下，使用預設配置的樸素貝葉斯分類器，可以得到83.977%的預測準確性

#對比使用TfidfVectorizer且不去掉停用詞的條件下，對文字特徵進行量化
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vec = TfidfVectorizer()
X_tfidf_train = tfidf_vec.fit_transform(X_train)
X_tfidf_test = tfidf_vec.transform(X_test)
#使用樸素貝葉斯分類器來訓練模型並預測
mnb_tfidf= MultinomialNB()
mnb_tfidf.fit(X_tfidf_train,y_train)
y_tfidf_predict = mnb_tfidf.predict(X_tfidf_test)
print 'The Accuracy of mnb(CountVectorizer) is',mnb_tfidf.score(X_tfidf_test,y_test)
from sklearn.metrics import classification_report
print classification_report(y_test,y_tfidf_predict,target_names=news.target_names)
#由輸出結果可知，使用TfidfVectorizer在不去掉停用詞的條件下，使用預設配置的樸素貝葉斯分類器，可以得到84.634%的預測準確性

#這說明，在訓練文字較多的時候，利用TfidfVectorizer壓制這些常用詞彙對分類決策的干擾，往往可以起到提升模型效能的作用。

#***************************************************************************************************

#學習目標2:在去掉停用詞的前提下，分別使用CountVectorizer和TfidfVectorizer對文字特徵進行量化，再用樸素貝葉斯進行訓練評估
count_filter_vec,tfidf_filter_vec = CountVectorizer(analyzer='word',stop_words='english'),TfidfVectorizer(analyzer='word',stop_words='english')
#使用帶有停用詞過濾的CountVectorizer和TfidfVectorizer對訓練文字和測試文字進行量化處理
X_count_filter_train = count_filter_vec.fit_transform(X_train)
X_count_filter_test = count_filter_vec.transform(X_test)
X_tfidf_filter_train = tfidf_filter_vec.fit_transform(X_train)
X_tfidf_filter_test = tfidf_filter_vec.transform(X_test)
#使用預設配置的樸素貝葉斯分類器進行訓練和評估
#1.CountVectorizer with filtering stopwords:
mnb_count.fit(X_count_filter_train,y_train)
y_count_filter_predict = mnb_count.predict(X_count_filter_test)
print 'The Accuracy of mnb(CountVectorizer) is',mnb_count.score(X_count_filter_test,y_test)
from sklearn.metrics import classification_report
print classification_report(y_test,y_count_filter_predict,target_names=news.target_names)
#由輸出結果可知，使用CountVectorizer在去掉停用詞的條件下，使用預設配置的樸素貝葉斯分類器，可以得到86.375%的預測準確性
#2.TfidfVectorizer with filtering stopwords:
mnb_tfidf.fit(X_tfidf_filter_train,y_train)
y_tfidf_filter_predict = mnb_tfidf.predict(X_tfidf_filter_test)
print 'The Accuracy of mnb(CountVectorizer) is',mnb_tfidf.score(X_tfidf_filter_test,y_test)
from sklearn.metrics import classification_report
print classification_report(y_test,y_tfidf_filter_predict,target_names=news.target_names)
#由輸出結果可知，使用TfidfVectorizer在去掉停用詞的條件下，使用預設配置的樸素貝葉斯分類器，可以得到88.264%的預測準確性

#綜上所述，總結如下：
#  在統一訓練模型下，且文字資料量較大時，去掉停用詞的TfidfVectorizer的模型效能 優於 去掉停用詞的CountVectorizer的模型效能
#  優於 未去掉停用詞的TfidfVectorizer的模型效能 優於 未去掉停用詞的CountVectorizer的模型效能

15.【進階】特徵提升之特徵抽取--CountVectorizer和TfidfVectorizer

#學習目標1:使用CountVectorizer和TfidfVectorizer對非結構化的符號化資料(如一系列字串)進行特徵抽取和向量化 from sklearn.datasets import fetch_20newsgroups #從網際網路上即時下載新

14.【進階】特徵提升之特徵抽取----DictVectorizer

說明：DictVectorizer的處理物件是符號化(非數字化)的但是具有一定結構的特徵資料，如字典等，將符號轉成數字0/1表示。 #-*- coding:utf-8 -*- #學習目標：使用DictVectorizer對使用字典儲存的資料進行特徵抽取和

【Android 進階】ORM 框架之 greenDAO學習筆記

前言當初學習Hibernate的時候就非常驚歎這種ORM思想，後來才知道原來Android中也有這種基於ORM思想的開源框架greenDAO。 greenDAO簡介：簡單的講，greenDAO 是一個將物件對映到 SQLite 資料庫

技術鄰學院直播預告｜【進階】simufact軟件焊接仿真工藝培訓

技術分享教學過程高級工程師力學案例評論代理電子技術鄰學院直播預告【進階】simufact軟件焊接仿真工藝培訓（6月10日）直播信息日期： 2017年6月10日（星期六）20：00--21：30 直播地址：熊貓直播http://pan

Docker極簡教程【進階】

原文連結：https://www.javazhiyin.com/20513.html 1. DockerFile建立映象建立檔案Dockerfile檔案，該檔名不可更改 vi Dockerfile 寫入文字 FROM alpine:latest MAINT

【機器學習】機器學習之特徵選擇

機器學習之特徵選擇特徵選擇方法初識： 1、為什麼要做特徵選擇在有限的樣本數目下，用大量的特徵來設計分類器計算開銷太大而且分類效能差。 2、特徵選擇的確切含義將高維空間的樣本通過對映或者是變換的方式轉換到低維空間，達到降維的目的，然後通過特徵選取刪選掉冗餘和不相關的特徵來進一步降維。

【連結串列面試題】【進階】

1、查詢倒數第 k 個連結串列題目描述：給定一個單向連結串列 List ，要你設計演算法找出倒數第 K 個結點並列印 struct ListNode { DataType m_Value; ListNode* m_pNext; }; ListNode* FindKt

20.【進階】流行庫模型--NLTK(Nature Language Toolkit)

#-*- coding:utf-8 -*- #如何將下面兩行句子向量化 sentence1 = 'The cat is walking in the bedroom.' sentence2 = 'A dog was running across the kit

23.【進階】流行庫模型--Tensorflow&SKFlow

Tensorflow 用以編寫程式的計算機軟體；計算機軟體開發工具；可用於人工智慧、深度學習、高效能運算、分散式計算、虛擬化和機器學習這些領域；軟體庫可用於通用目的的計算、資料收集的操作、資料變換、輸入輸出、人工智慧等領域的建模和測試軟體可用作應用於

17.【進階】模型正則化--欠擬合與過擬合問題

#-*- coding:utf-8 -*- #學習目標：以“披薩餅價格預測”為例，認識欠擬合和過擬合的問題 #假定只考慮披薩的尺寸和售價的關係,X為尺寸，y代表售價 X_train = [[6],[8],[10],[14],[18]] y_train = [

21.【進階】流行庫模型--word2vec

詞的向量化表示 word2vec模型的採用的思想是，n元語法模型(n-gram model)，即假設一個詞只與周圍n個詞有關，而與文字中的其他詞無關首先，我們要明確，句子中的連續詞彙片段，也被稱為上下文context，詞彙之間的聯絡就是通過無數個這樣的上

【進階】RecyclerView原始碼解析(二)——快取機制

引言接著上一篇部落格分析完RecyclerView的繪製流程，其實對RecyclerView已經有了一個大體的瞭解，尤其是RecyclerView和LayoutManager和ItemDecoration的關係。本篇文章將對RecyclerVie

【進階】從linux到android，程序的方方面面

最近在閱讀《Linux核心設計與實現》，這裡做一下linux中程序相關的知識點整理，以及android中程序的淺析。下面1，2小節整理自《Linux核心設計與實現》第三章《程序管理》和第四章《程序排程》。第3節整理android中程序的知識點。

18.【進階】模型正則化--L1&L2範數正則化

#-*- coding:utf-8 -*- #模型正則化：目的是提高模型在未知測試資料上的泛化力，避免參數過擬合 #常用方法：在原模型優化目標的基礎上，增加對引數的懲罰(penalty)項 #拓展一下L0範數、L1範數、L2範數的概念 #L0範數是指向量中非0

【進階】RecyclerView原始碼解析(三)——深度解析快取機制

上一篇部落格從原始碼角度分析了RecyclerView讀取快取的步驟，讓我們對於RecyclerView的快取有了一個初步的理解，但對於RecyclerView的快取的原理還是不能理解。本篇部落格將從實際專案角度來理解RecyclerView的快取原理。

【進階】RecyclerView原始碼解析(一)——繪製流程

引言自從Google出了RecyclerView後，基本上列表的場景已經完全替代了原來的ListView和GridView，現在不僅僅是列表，多樣式（俗稱蓋樓），複雜頁面等，只要我們願意，RecyclerView幾乎可以代替實現80%的佈局，Git

19.【進階】超引數搜尋--網格搜尋&並行搜尋

超引數搜尋前面所提到的模型配置，我們一般統稱為模型的超引數，如K近鄰演算法中的k值、支援向量機中不同的核函式等，多數情況下，超引數等選擇是無限的，除了人工預設幾種超引數的組合以外，還可以通過啟發式的搜尋演算法對超引數組合進行調優。這種啟發式的搜尋演算法對

Java進階篇設計模式之五-----外觀模式和裝飾器模式

和我 logs 適配器模式 del xtra implement () 實例化網絡遊戲前言在上一篇中我們學習了結構型模式的適配器模式和橋接模式。本篇則來學習下結構型模式的外觀模式和裝飾器模式。外觀模式簡介外觀模式隱藏系統的復雜性，並向客戶端提供了一個客戶端可以

Java進階篇設計模式之六 ----- 組合模式和過濾器模式

對組 www. 希望 als oid block 個人定義 lsi 前言在上一篇中我們學習了結構型模式的外觀模式和裝飾器模式。本篇則來學習下組合模式和過濾器模式。組合模式簡介組合模式是用於把一組相似的對象當作一個單一的對象。組合模式依據樹形結構來組合對象，用來表

Java進階篇設計模式之十 ---- 訪問者模式和中介者模式

前言在上一篇中我們學習了結構型模式的直譯器模式(Interpreter Pattern)和迭代器模式（Iterator Pattern）。本篇則來學習下行為型模式的兩個模式，訪問者模式(Visitor Pattern)和中介者模式（Mediator Pattern）。訪問者模式簡介訪問者

15.【進階】特徵提升之特徵抽取--CountVectorizer和TfidfVectorizer

相關推薦