Sklearn學習之路（1）——從20newsgroups開始講起

阿新 • • 發佈：2019-02-18

1. Sklearn 簡介

Sklearn是一個機器學習的python庫，裡面包含了幾乎所有常見的機器學習與資料探勘的各種演算法。

具體的，它常見的包括資料預處理（preprocessing）（正則化，歸一化等），特徵提取（feature_extraction）（TFIDF等），降維（decomposition）（PCA等），以及常見的機器學習演算法（分類、聚類、迴歸），更特別的，它也包括了評估（混淆矩陣與PRF及Acc值）和引數優化等（GridSearchCV），甚至是交叉驗證（cross_validation）等都包含在內，可謂是機器學習整個流程都有了。

2. 20newsgroups案例

下面我們從20新聞語料這個案例開始，熟悉這些我們應該會的部分。首先給出全部程式碼：

from sklearn.datasets import fetch_20newsgroups
categories = ['alt.atheism', 'soc.religion.christian', 'comp.graphics', 'sci.med']
twenty_train = fetch_20newsgroups(subset='train', categories=categories, shuffle=True, random_state=42)
'''
這是開始提取特徵，這裡的特徵是詞頻統計。
''' 

from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(twenty_train.data)
'''
這是開始提取特徵，這裡的特徵是TFIDF特徵。
'''
from sklearn.feature_extraction.text import TfidfTransformer
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)

'''
使用樸素貝葉斯分類,並做出簡單的預測
''' 

from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB().fit(X_train_tfidf, twenty_train.target)
docs_new = ['God is love', 'OpenGL on the GPU is fast']
X_new_counts = count_vect.transform(docs_new)
X_new_tfidf = tfidf_transformer.transform(X_new_counts)
predicted = clf.predict(X_new_tfidf)
for doc, category in zip(docs_new, predicted):
    print('%r => %s' % (doc, twenty_train.target_names[category]))

'''
使用測試集來評估模型好壞。
'''
from sklearn import metrics
import numpy as np;
twenty_test = fetch_20newsgroups(subset='test',categories=categories, shuffle=True, random_state=42)
docs_test = twenty_test.data
X_test_counts = count_vect.transform(docs_test)
X_test_tfidf = tfidf_transformer.transform(X_test_counts)
predicted = clf.predict(X_test_tfidf)
print(metrics.classification_report(twenty_test.target, predicted,target_names=twenty_test.target_names))
print("accurary\t"+str(np.mean(predicted == twenty_test.target)))

這個案例是一個新聞標題分類的案例，NLPCC 2017 Shared Task也有一個類似的案例。因此我們先拿這個下手了。整個過程概括起來分為以下幾步：

資料採集
特徵提取
模型訓練
模型評估

接下來我們對這4個部分的程式碼進行詳細的講解。

2.1 資料採集

從上面的程式碼中，我們可以看到獲取資料很簡單：

from sklearn.datasets import fetch_20newsgroups
categories = ['alt.atheism', 'soc.religion.christian', 'comp.graphics', 'sci.med']
twenty_train = fetch_20newsgroups(subset='train', categories=categories, shuffle=True, random_state=42)

那麼這裡最重要的就是這個fetch_20newsgroups方法了，下面我們來詳細講解：

##函式原型是這樣的。
'''
fetch_20newsgroups(data_home=None,subset='train',categories=None,shuffle=True,random_state=42,remove=(),download_if_missing=True)
'''
'''
data_home指的是資料集的地址，如果預設的話，所有的資料都會在'~/scikit_learn_data'資料夾下.

subset就是train,test,all三種可選，分別對應訓練集、測試集和所有樣本。

categories:是指類別，如果指定類別，就會只提取出目標類，如果是預設，則是提取所有類別出來。

shuffle:是否打亂樣本順序，如果是相互獨立的話。

random_state:打亂順序的隨機種子

remove:是一個元組，用來去除一些停用詞的，例如標題引用之類的。

download_if_missing: 如果資料缺失，是否去下載。
'''

經過測試可知
twenty_train.data是一個list型別，每一個元素是str型別，也就是一篇文章。
twenty_train.target則是它的標籤。
這樣資料集就基本採集好了。

2.2 特徵提取

資料採集完成以後，就要開始提取特徵了，我們這裡使用的是TFIDF特徵。

'''
這是開始提取特徵，這裡的特徵是詞頻統計。
'''
from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(twenty_train.data)

'''
這是開始提取特徵，這裡的特徵是TFIDF特徵。
'''
from sklearn.feature_extraction.text import TfidfTransformer
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)
'''
這是用來轉換成矩陣的，裡面還有幾個能調節的引數tf最大值最小值，停用詞等。
轉換後的矩陣為係數矩陣，儲存方式為（x,y） 目標值。
'''

2.3 模型訓練

這裡我們使用樸素貝葉斯來進行訓練，而且使用的是預設值，官網上面有很多引數可以調節這個演算法。

'''
使用樸素貝葉斯分類,並做出簡單的預測
'''
from sklearn.naive_bayes import MultinomialNB
#這是進行訓練的過程。
clf = MultinomialNB().fit(X_train_tfidf, twenty_train.target)
docs_new = ['God is love', 'OpenGL on the GPU is fast']
X_new_counts = count_vect.transform(docs_new)
X_new_tfidf = tfidf_transformer.transform(X_new_counts)
#重要的一行在這裡，這是進行預測的過程。
predicted = clf.predict(X_new_tfidf)
for doc, category in zip(docs_new, predicted):
    print('%r => %s' % (doc, twenty_train.target_names[category]))

其最終的測試結果我們也可以看到：

‘God is love’ => soc.religion.christian
‘OpenGL on the GPU is fast’ => comp.graphics

說明這個分類效果還是不錯的，但是我們評估一個模型的好壞不能靠一個2個樣例來決定。下面才是評估的正確方法。

2.4模型的評估

模型的評估一般使用PRF（精確率，召回率，F1值）和Acc值（準確值）來評估，因此我們使用以下程式碼：

'''
使用測試集來評估模型好壞。
'''
from sklearn import metrics
import numpy as np;
twenty_test = fetch_20newsgroups(subset='test',categories=categories, shuffle=True, random_state=42)
docs_test = twenty_test.data
X_test_counts = count_vect.transform(docs_test)
X_test_tfidf = tfidf_transformer.transform(X_test_counts)
predicted = clf.predict(X_test_tfidf)
#使用metrics.classification_report方法可以輕鬆獲取這些資訊。
print(metrics.classification_report(twenty_test.target, predicted,target_names=twenty_test.target_names))
#使用這個方法可以比較兩個target的差異。
print("accurary\t"+str(np.mean(predicted == twenty_test.target)))

3 小結

從這幾個簡單的程式碼裡，我們大概獲知了這麼幾個知識點：

Sklearn的優勢
一個機器學習的大致流程，當然這個案例會比較特殊，我們在以後的講解中再詳細介紹。
知道了如何獲取sklearn自帶的資料集
知道了如何進行TFIDF特徵抽取
知道了如何進行樸素貝葉斯分類的學習和預測過程
知道了如何評估一個機器學習演算法的優劣

相比較而言，收穫還是挺多的，接下來我們會進一步認識Sklearn裡的一些很重要的部分。

Sklearn學習之路（1）——從20newsgroups開始講起

1. Sklearn 簡介 Sklearn是一個機器學習的python庫，裡面包含了幾乎所有常見的機器學習與資料探勘的各種演算法。具體的，它常見的包括資料預處理（preprocessing）（正則化，歸一化等），特徵提取（feature_extractio

FPGA小白學習之路（1） System Verilog的概念以及與verilog的對比

函數返回 enable 傳遞轉換操作符 st2 輸出時間值擴展 isa 轉自CSDN：http://blog.csdn.net/gtatcs/article/details/8970489 SystemVerilog語言簡介 SystemVerilog是一種硬件描

小李的Java學習之路（1）

第一天 java的面向物件思想小葉：“為什麼要學習Java呢？？？” 小李：“因為Java比c語言有趣多了。。。。” 小葉：“你剛學完c語言，來說說c語言和Java的異同之處吧。” 小李：“c語言和Java的語法基礎，程式控制語句大體都是一樣的。主要是不同之處：Java和c的程

ESP8266 WIFI模組學習之路（1）——模組的USB串列埠連線

ESP8266 WIFI模組是我一直想學習的模組，現在物聯網發展如此之快。我們先看看ESP8266 WIFI模組長什麼樣子吧，如下圖：然後，我們還需要一個TTL-USB串列埠線，如圖：還需要一個串列埠除錯助手，為了接發資料。我使用的除錯助手如下圖：

TensorFlow學習之路（1）擬合線性方程

TensorFlow是Google開源的一個深度學習框架，之前接觸過一些但是沒有好好的深入瞭解，從這篇文章開始記錄自己所學到的知識。本次主要記錄一個簡單的例子，以後會慢慢深入，包括多層神經網路，卷積神經網路，迴圈神經網路，自編碼網路，深度神經網路和對抗神經網路。例項描述

一個初學者→全棧工程師的學習之路（1）——關於全棧工程師的理解

關於全棧工程師的理解與學習一、關於全棧工程師的定義與職務 1. 全棧工程師的定義隨著網際網路技術的蓬勃發展，技術變得越來越繁瑣，越來越多面化。一個專案的開發，需要使用多樣技術。舉個例子，一個網站的建設，單論初步開發（功能實現）而言，需要功能分析、介面與互動性設計、前

NodeJs學習之路（1）

NodeJs主要乾的工作 nodejs主要可以完成的工作就是在Web場景下使用，是對前端最友好的後端語言，主要是在高併發，非阻塞I/O密集下使用，但是不適合CPU使用密集、非阻塞I/O不多的情況下使用。很多情況下NodeJS在價效比方面不是最好的，但是

vue學習之路（1）——搭建vue腳手架（vue-cli）

準備的環境和工具 1. 首先安裝node.js，官網：https://nodejs.org/en/ 2. win+r 輸入cmd 開啟命令列輸入node -v 出現相應的版本號，則說明安裝成功。此時已經自帶npm（包管理工具） 3. 安

Sklearn學習之路（2）——圍繞評估器轉換器展開討論

1. 寫在前面在上一講中，我們對於Sklearn框架有了一個較為直觀的認識，但是對於其中的細節部分，可能還是不知甚解。這次，我們將會詳細的介紹其中的一些知識，包括：Sklearn版本注意事項、最基本的評估器與轉換器、fit、transform與fit_tra

資料結構（C語言）學習之路（1）——緒論

小白學習資料結構，從基礎知識開始整理起。 1.資料結構是什麼？ 2.資料結構在哪裡用？ 3.資料結構怎麼用？小白在開始學習資料結構，提出了這三個問題，希望到學習完成之後可以解決這三個問題。小白從《大話資料結構》這本書開始學習。基本概念：資

Open-Falcon學習之路（1）

學習open-falcon的初衷是因為公司現有APP的業務監控很混亂，定位問題比較辛苦，查詢日誌也很辛苦，伺服器上經常需要維護，反正就是目前對於專案應用很是不順手，總是需要“手工操作”，所以前輩給了一個研究open-falcon的任務。這裡是官方的配置檔案 h

es6學習之路（1）安裝

轉載自 http://www.shaoqun.com/a/239505.aspx 本文介紹Babel6.x的安裝過程~ 首先呢，可以使用Babel線上轉換 https://babeljs.io/repl/ 然後進入主題：安裝Babel（命令列環境，針對Babe

學習Linux程序設計之路（1）UNIX程序設計哲學

文件系統領域 mil 自己編程代碼復雜容易 UNIX程序編程有自己特定的風格，我們在學習UNIX程序設計的時候，應該盡量遵從這種設計風格，它能夠最大限度地幫助我們避免一些問題。簡單化許多有用並且好用的UNIX系統軟件都非常簡單，而且很小並易於理解。

Tensorflow學習之路（一）：從MNIST資料集開始

MNIST資料集簡單介紹： MNIST 資料集可在 http://yann.lecun.com/exdb/mnist/ 獲取, 它包含了四個部分: Training set images: train-images-idx3-ubyte.gz (9.9 MB,

ApolloStudio高手之路（1）：從邊緣計算說起到全面認識ApolloStudio的架構體系

邊緣計算全球製造業正在經歷一場數字化轉型的變革，邊緣計算這個概念這幾年逐漸進入了人們的視線，在介紹這個概念之前，我們先來認識一下未來工業網際網路全流域生態鏈的總體架構圖。在上面這張圖中我們可以清楚的看到，邊緣計算是處於整個生態鏈的最底端，是整個工業產業鏈的“基石”，是所有上層設

菜鳥的 PHP 學習之路（三）：一個簡單的連線資料庫並查詢的小程式（1）

上一篇文章已經寫了一個簡單的 Hello World 程式了，好吧，其實那不是我的第一個 PHP 程式，我的第一個程式是簡單地連線資料庫的（我不會介紹 PHP 語法的，至少不會專門去介紹，免得誤人子弟，要看語法介紹的自行上 W3CSchool 這個網站），話不多說，直接開始

Struts2 學習之路（二）：2.4 Struts2(2.5.14.1版本)中的萬用字元匹配問題

struts.xml 配置檔案中萬用字元的匹配可以匹配action節點中的class屬性，method屬性，result子節點的name屬性，甚至是result子節點的路徑內容因為2.5.x版本

嵌入式Linux C程式設計學習之路（二）——常用命令彙總1

一、使用者管理類命令 1：格式：useradd [選項] 使用者名稱 useradd kkkw -新增名字為kkkw的使用者，當用戶建立成功後，會在/home/ 目錄下生成與使用者名稱同名的目錄 [root@loc home]# useradd kkkw [roo

python學習之路（四）

[1] size class dex epc uri msu 語句這就是繼續昨天的學習，學到了數組。首先有兩個數組，name1和name2.我們可以將兩個數組合並 name1=[1,2,3,4] name2=[5,6,7,8] names=name1.extend(

Linux學習之路（四）幫助命令

查看系統 lin 查看 inux 舉例 config pro nbsp 雜項幫助命令man .man　　命令　　#獲取指定命令的幫助 .man　　ls　　　　#查看ls的幫助 man的級別 1 查看命令的幫助 2 查看可被內核調用的函數的幫助 3 查看函數的

Sklearn學習之路（1）——從20newsgroups開始講起

1. Sklearn 簡介

2. 20newsgroups案例

2.1 資料採集

2.2 特徵提取

2.3 模型訓練

2.4模型的評估

3 小結

相關推薦