19.【進階】超引數搜尋--網格搜尋&並行搜尋

阿新 • • 發佈：2019-02-14

超引數搜尋

前面所提到的模型配置，我們一般統稱為模型的超引數，如K近鄰演算法中的k值、支援向量機中不同的核函式等，多數情況下，超引數等選擇是無限的，除了人工預設幾種超引數的組合以外，還可以通過啟發式的搜尋演算法對超引數組合進行調優。
這種啟發式的搜尋演算法對超引數搜尋演算法，被稱之為網格搜尋。(如果人工處理所有可能的超引數組合，通常的辦法是，根據超引數的維度，列成相應的表格，比如說k的取值有[2，3，4，5，6，7，8]，另一個係數比如λ取值有[0.01,0.03,0.1,0.3]等，這樣就可以列出一個二維表格，組合出7*4種可能性的超引數組合，再對每一個格子中具體的超引數組合，通過交叉驗證的方式進行模型效能的評估，然後通過驗證效能的比較，最終篩選出最佳的超引數資料組合)

網格搜尋採用交叉驗證的方法，來尋找更好的超引數組合的過程非常耗時，由於各個新模型在執行交叉驗證的過程中是相互獨立的，那麼我們可以充分利用多核處理器甚至是分散式的計算資源來從事並行搜尋，從而成倍的節省運算時間。

#-*- coding:utf-8 -*-

#1.使用單執行緒對文字分類的樸素貝葉斯模型的超引數組合執行網格搜尋

from sklearn.datasets import fetch_20newsgroups
import numpy as np 
news = fetch_20newsgroups(subset='all')
from sklearn.cross_validation import train_test_split
#取前3000條新聞文字進行資料分割 

X_train,X_test,y_train,y_test=train_test_split(news.data[:3000],news.target[:3000],test_size=0.25,random_state=33)

from sklearn.svm import SVC
from sklearn.feature_extraction.text import TfidfVectorizer
#*************匯入pipeline*************
from sklearn.pipeline import Pipeline
#使用Pipeline簡化系統搭建流程，sklean提供的pipeline來將多個學習器組成流水線，通常流水線的形式為：  

#將資料標準化的學習器---特徵提取的學習器---執行預測的學習器 
#將文字特徵與分類器模型串聯起來,[(),()]裡有兩個引數
#引數1:執行 vect = TfidfVectorizer(stop_words='english',analyzer='word')操作
#引數2:執行 svc = SVC()操作
clf = Pipeline([('vect',TfidfVectorizer(stop_words='english',analyzer='word')),('svc',SVC())])

#這裡需要試驗的2個超引數svc_gamma和svc_C的元素個數分別為4、3,這樣我們一共有12種超引數對集合
#numpy.linspace用於建立等差數列，numpy.logspace用於建立等比數列
#logspace中，開始點和結束點是10的冪
#例如logspace(-2,1,4)表示起始數字為10^-2，結尾數字為10^1即10，元素個數為4的等比數列
#parameters變數裡面的key都有一個字首,這個字首其實就是在Pipeline中定義的操作名。二者相結合，使我們的程式碼變得十分簡潔。
#還有注意的是，這裡對引數名是<兩條>下劃線 __
parameters = {'svc__gamma':np.logspace(-2,1,4),'svc__C':np.logspace(-1,1,3)}

#從sklearn.grid_search中匯入網格搜尋模組GridSearchCV
from sklearn.grid_search import GridSearchCV
#GridSearchCV引數解釋:
#1.estimator : estimator(評估) object.
#2.param_grid : dict or list of dictionaries
#3.verbose:Controls the verbosity(冗餘度): the higher, the more messages.
#4.refit:default=True, Refit(再次擬合)the best estimator with the entire dataset
#5.cv : int, cross-validation generator 此處表示3折交叉驗證
gs = GridSearchCV(clf,parameters,verbose=2,refit=True,cv=3)

#執行單執行緒網格搜尋
gs.fit(X_train,y_train)

print gs.best_params_,gs.best_score_

#最後輸出最佳模型在測試集上的準確性
print 'the accuracy of best model in test set is',gs.score(X_test,y_test) 

#小結：
#1.由輸出結果可知，使用單執行緒的網格搜尋技術 對樸素貝葉斯模型在文字分類任務中的超引數組合進行調優，
#  共有12組超引數組合*3折交叉驗證 =36項獨立執行的計算任務
#2.在本機上，該過程一共運行了2.9min，尋找到最佳的超引數組合在測試集上達到的分類準確性為82.27%

附上程式的輸出結果：
這裡寫圖片描述

#2.使用多執行緒對文字分類的樸素貝葉斯模型的超引數組合執行網格搜尋

#n_jobs=-1,表示使用該計算機的全部cpu
gs = GridSearchCV(clf,parameters,verbose=2,refit=True,cv=3,n_jobs=-1)
gs.fit(X_train,y_train)
print gs.best_params_,gs.best_score_
#輸出最佳模型在測試集上的準確性
print 'the accuracy of best model in test set is',gs.score(X_test,y_test) 

#小結：
#總任務相同的情況下，使用並行搜尋技術進行計算的話，執行時間只花費了1.1min；
#而且最終所得的的best_params_和score沒有發生變化，說明並行搜尋可以在不影響準確性的前提下，
#有效的利用計算機的CPU資源，大大節省了最佳超引數的搜尋時間。

附上程式的輸出結果：
這裡寫圖片描述

19.【進階】超引數搜尋--網格搜尋&並行搜尋

超引數搜尋前面所提到的模型配置，我們一般統稱為模型的超引數，如K近鄰演算法中的k值、支援向量機中不同的核函式等，多數情況下，超引數等選擇是無限的，除了人工預設幾種超引數的組合以外，還可以通過啟發式的搜尋演算法對超引數組合進行調優。這種啟發式的搜尋演算法對

技術鄰學院直播預告｜【進階】simufact軟件焊接仿真工藝培訓

技術分享教學過程高級工程師力學案例評論代理電子技術鄰學院直播預告【進階】simufact軟件焊接仿真工藝培訓（6月10日）直播信息日期： 2017年6月10日（星期六）20：00--21：30 直播地址：熊貓直播http://pan

Docker極簡教程【進階】

原文連結：https://www.javazhiyin.com/20513.html 1. DockerFile建立映象建立檔案Dockerfile檔案，該檔名不可更改 vi Dockerfile 寫入文字 FROM alpine:latest MAINT

【連結串列面試題】【進階】

1、查詢倒數第 k 個連結串列題目描述：給定一個單向連結串列 List ，要你設計演算法找出倒數第 K 個結點並列印 struct ListNode { DataType m_Value; ListNode* m_pNext; }; ListNode* FindKt

20.【進階】流行庫模型--NLTK(Nature Language Toolkit)

#-*- coding:utf-8 -*- #如何將下面兩行句子向量化 sentence1 = 'The cat is walking in the bedroom.' sentence2 = 'A dog was running across the kit

23.【進階】流行庫模型--Tensorflow&SKFlow

Tensorflow 用以編寫程式的計算機軟體；計算機軟體開發工具；可用於人工智慧、深度學習、高效能運算、分散式計算、虛擬化和機器學習這些領域；軟體庫可用於通用目的的計算、資料收集的操作、資料變換、輸入輸出、人工智慧等領域的建模和測試軟體可用作應用於

17.【進階】模型正則化--欠擬合與過擬合問題

#-*- coding:utf-8 -*- #學習目標：以“披薩餅價格預測”為例，認識欠擬合和過擬合的問題 #假定只考慮披薩的尺寸和售價的關係,X為尺寸，y代表售價 X_train = [[6],[8],[10],[14],[18]] y_train = [

21.【進階】流行庫模型--word2vec

詞的向量化表示 word2vec模型的採用的思想是，n元語法模型(n-gram model)，即假設一個詞只與周圍n個詞有關，而與文字中的其他詞無關首先，我們要明確，句子中的連續詞彙片段，也被稱為上下文context，詞彙之間的聯絡就是通過無數個這樣的上

【進階】RecyclerView原始碼解析(二)——快取機制

引言接著上一篇部落格分析完RecyclerView的繪製流程，其實對RecyclerView已經有了一個大體的瞭解，尤其是RecyclerView和LayoutManager和ItemDecoration的關係。本篇文章將對RecyclerVie

14.【進階】特徵提升之特徵抽取----DictVectorizer

說明：DictVectorizer的處理物件是符號化(非數字化)的但是具有一定結構的特徵資料，如字典等，將符號轉成數字0/1表示。 #-*- coding:utf-8 -*- #學習目標：使用DictVectorizer對使用字典儲存的資料進行特徵抽取和

【進階】從linux到android，程序的方方面面

最近在閱讀《Linux核心設計與實現》，這裡做一下linux中程序相關的知識點整理，以及android中程序的淺析。下面1，2小節整理自《Linux核心設計與實現》第三章《程序管理》和第四章《程序排程》。第3節整理android中程序的知識點。

18.【進階】模型正則化--L1&L2範數正則化

#-*- coding:utf-8 -*- #模型正則化：目的是提高模型在未知測試資料上的泛化力，避免參數過擬合 #常用方法：在原模型優化目標的基礎上，增加對引數的懲罰(penalty)項 #拓展一下L0範數、L1範數、L2範數的概念 #L0範數是指向量中非0

【進階】RecyclerView原始碼解析(三)——深度解析快取機制

上一篇部落格從原始碼角度分析了RecyclerView讀取快取的步驟，讓我們對於RecyclerView的快取有了一個初步的理解，但對於RecyclerView的快取的原理還是不能理解。本篇部落格將從實際專案角度來理解RecyclerView的快取原理。

【進階】RecyclerView原始碼解析(一)——繪製流程

引言自從Google出了RecyclerView後，基本上列表的場景已經完全替代了原來的ListView和GridView，現在不僅僅是列表，多樣式（俗稱蓋樓），複雜頁面等，只要我們願意，RecyclerView幾乎可以代替實現80%的佈局，Git

15.【進階】特徵提升之特徵抽取--CountVectorizer和TfidfVectorizer

#學習目標1:使用CountVectorizer和TfidfVectorizer對非結構化的符號化資料(如一系列字串)進行特徵抽取和向量化 from sklearn.datasets import fetch_20newsgroups #從網際網路上即時下載新

【MySQL進階】Keepalived1.4.0結合MySQL 5.7.19實現主備高可用

port 腳本 amp ado roo ins log openss net 1、基本環境數據庫安裝及主備同步接上一篇文章：http://blog.51cto.com/13946719/2309514JDK 1.8_171MySQL 5.7.19CentOS 7.4Kee

【Android進階】(3)Android圖像處理

progress chang etc geo xtend static ogr arch 取出 1. 概念色調/色相：物體傳遞的顏色飽和度：顏色的純度，從0（灰）到100%（飽和）來進行描寫敘述亮度/明度：顏色的相對明暗程度 2. 調整圖像小Demo 創建一個

【Android進階】Junit單元測試環境搭建以及簡單有用

rar theme 選擇 http 技術分享才幹 ack package family 單元測試的目的首先。Junit單元測試要實現的功能，就是用來測試寫好的方法是否可以正確的運行，一般多用於對業務方法的測試。單元測試的環境配置 1.在Andro

【SSH高速進階】——Hibernate 多對多映射

pen prop package 轉載 map tex test lec set 　　說到多對多關系。印象最深刻的就是大學的選修課。一個學生能夠選修多門課程，一門課程能夠有多個學生選修，學生所選的每一門課程還有成績。這個場景的E-R圖例如以下：　

01月05日三周四次【Python基礎進階】

是個快速 files 函數 true 結果 lis pre 序列 1.8 遞歸列出目錄裏的文件1.9 匿名函數 1.8 遞歸列出目錄裏的文件 #### 遍歷目錄裏的文件(不支持子目錄文件) import os for i in os.listdir(‘C:/Users

19.【進階】超引數搜尋--網格搜尋&並行搜尋

超引數搜尋

相關推薦