scikit-learn中gridSearchCV的使用

阿新 • • 發佈：2018-12-20

步驟：

1.選擇並構建訓練模型model

2.將訓練模型model投入到GridSearchCV中，得到GridSearchCV模型grid_model

3.用grid_model擬合訓練集資料，選擇在validation_dataset上效果最好的引數的模型best_estimator

4.1.用best_estimator擬合訓練集（得到的結果應該與之前不同，因為之前用交叉驗證等方法對訓練集進行了分割）

4.2.用best_estimator擬合測試集

5.結果視覺化：AUC曲線，AUPR曲線

一.資料

【資料準備】

Size	Size
訓練集	(1206, 294)	(1206,)
測試集	(64, 294)	(64,)

二.主模型

【搭建環境】

from sklearn.neural_network import MLPClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.gaussian_process.kernels import RBF
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.model_selection import GridSearchCV,cross_val_score
from sklearn.metrics import accuracy_score,precision_score,recall_score,f1_score
from sklearn.metrics import auc,roc_auc_score,roc_curve,precision_recall_curve
from sklearn.metrics import confusion_matrix,make_scorer

【模型準備】

seed = 1231
np.random.seed(seed)
x_train,y_train,x_test,y_test = x_train,y_train,x_test,y_test

names = ['Decision Tree', 'Random Forest']
classifiers = [DecisionTreeClassifier(),RandomForestClassifier()]

parameter_dtc = {'max_features':['auto','sqrt','log2',None],'max_depth':range(3,100,2)}
parameter_rfc = {'n_estimators':range(5,200,5),'max_features':['auto','sqrt','log2',None],'max_depth':range(3,100,2)}

parameters = [parameter_dtc,parameter_rfc,parameter_ada_dtc,parameter_mlp]

scoring = {'roc_auc':'roc_auc','accuracy':'accuracy', 'precision':'precision','recall':'recall','f1':'f1'}

【主模型函式】

def gird_search_model(clf,param,name,x_train,y_train,x_test,y_test): #clf-classifier;param-parameter;name-classifier_name
    model = GridSearchCV(clf,param,cv=5,verbose=2,scoring=scoring,refit='roc_auc',n_jobs=-1,return_train_score=True) #GridSearchCV模型
    fit = model.fit(x_train,y_train) #GridSearchCV模型擬合訓練集資料，並返回訓練器集合為fit
    y_train_pred = fit.best_estimator_.predict(x_train) #用訓練器集合中最好的estimator預測y_train_pred
    y_test_pred = fit.best_estimator_.predict(x_test) #用訓練器集合中最好的estimator預測y_test_pred
    
    cv_results = pd.DataFrame(fit.cv_results_).set_index(['params']) #將訓練器集合fit的cv_results儲存為df格式
    cv_results_mean = cv_results[['mean_train_accuracy', 'mean_train_f1','mean_train_precision', 'mean_train_recall', 'mean_train_roc_auc',
                                  'mean_test_accuracy','mean_test_f1', 'mean_test_precision', 'mean_test_recall','mean_test_roc_auc']] #cv_results中的各個score的mean
    cv_results_std = cv_results[['std_train_accuracy', 'std_train_f1', 'std_train_precision','std_train_recall', 'std_train_roc_auc',
                                 'std_test_accuracy', 'std_test_f1','std_test_precision', 'std_test_recall', 'std_test_roc_auc']] #cv_results中的各個score的std

#-------------------模型結果展示------------------------------------------------------  
  
    print('MODEL : %r' % name)
    print('Best cv_test_roc_auc: %f using %s' % (fit.best_score_,fit.best_params_)) #訓練器集合fit中最好的模型得到的：best_score和best_params
    print(cv_results_mean)
    print(cv_results_std)
    
    train_score_list = []
    test_score_list = []
    score_list = []
    model_metrics_name = [accuracy_score,precision_score,recall_score,f1_score,roc_auc_score,aupr] #模型評價指標，與scoreing相對應
    for matrix in model_metrics_name: #計算各個模型評價指標
        train_score = matrix(y_train,y_train_pred) #計算訓練集的
        test_score = matrix(y_test,y_test_pred) #計算測試集的
        train_score_list.append(train_score) #把訓練集的各個模型指標放在同一行
        test_score_list.append(test_score) #把測試集的各個模型指標放在同一行
    score_list.append(train_score_list) #合併訓練集和測試集的結果（便於展示）
    score_list.append(test_score_list) #合併訓練集和測試集的結果（便於展示）
    score_df = pd.DataFrame(score_list,index = ['train','test'],columns = ['accuracy','precision','recall','f1','roc_auc','aupr']) #將結果顯示為df格式，加上行列index
    print('EVALUATE_METRICS:')
    print(score_df)   
    return cv_results,score_list,y_train_pred,y_test_pred

【單個模型執行過程】

【單個模型執行結果】

【多個模型迴圈執行】

train_score_list = []
test_score_list = []
y_train_pred_list = []
y_test_pred_list = []
for clf,param,name in zip(classifiers,parameters,names):
    cv_result,score_list,y_train_pred,y_test_pred =  gird_search_model(clf,param,name,x_train,y_train,x_test,y_test) #執行主模型函式
    train_score_list.append(score_list[0])
    test_score_list.append(score_list[1])
    y_train_pred_list.append(y_train_pred)
    y_test_pred_list.append(y_test_pred)
    print('-------------------------------------------------------------------------------------------------------------------------------')
train_score_df = pd.DataFrame(train_score_list,index=names,columns=['acc','pre','rec','f1','roc_auc','aupr'])
test_score_df = pd.DataFrame(test_score_list,index=names,columns=['acc','pre','rec','f1','roc_auc','aupr'])
print('TRAIN_SCORE:')
print(train_score_df)
print()
print('TEST_SCORE:')
print(test_score_df)

【多個模型執行結果】

三.畫AUC和PRC圖

【主函式】

for clf_name,y_train_pred,y_test_pred in zip(names,y_train_pred_list,y_test_pred_list):
    show_curve(y_train,y_train_pred,clf_name,True)
    show_curve(y_test,y_test_pred,clf_name,False)

【結果】

四.子函式（主程式內的，應該寫在最前面，本文為便於理解，放在最後）

1.模型評估函式裡有一個aupr（precision-recall-curve的曲線下面積）：當正負樣本不平衡時使用aupr評估比auc好。

def aupr(y_true,y_pred):
    precision, recall, thresholds = precision_recall_curve(y_true,y_pred)
    roc_aupr = auc(recall,precision) 
    return roc_aupr

2.如果想使用混淆矩陣作為GridSearchCV模型中的scoring，需要用make_scorer轉換一下。

def tn(y_true,y_pred): return confusion_matrix(y_true,y_pred)[0,0]
def fp(y_true,y_pred): return confusion_matrix(y_true,y_pred)[0,1]
def fn(y_true,y_pred): return confusion_matrix(y_true,y_pred)[1,0]
def tp(y_true,y_pred): return confusion_matrix(y_true,y_pred)[1,1]
make_score = {'tp':make_scorer(tp),'tn':make_scorer(tn),'fp':make_scorer(fp),'fn':make_scorer(fn)}

3.畫圖_步1：AUC和PRC曲線

import matplotlib.pyplot as plt
def show_roc(roc_auc,fpr,tpr):
    plt.figure(1)
    plt.plot([0, 1], [0, 1], 'k--',label='ROC curve (area = %0.2f)' % roc_auc)
    plt.plot(fpr, tpr)
    plt.xlabel('False positive rate')
    plt.ylabel('True positive rate')
    plt.title('ROC curve')
    plt.legend(loc='best')
    plt.show()

def show_roc_pr(roc_aupr,recall,precision):
    plt.figure(1)
    plt.plot([0, 1], [0, 1], 'k--',label='ROC curve (area = %0.2f)' % roc_aupr)
    plt.plot(recall, precision)
    plt.xlabel('Recall')
    plt.ylabel('Precision')
    plt.title('ROC_PR curve')
    plt.legend(loc='best')
    plt.show()
    print()

4.畫圖_步2：AUC和PRC曲線

def show_curve(y_true,y_pred,clf_name,train=True):
    fpr, tpr, thresholds1 = roc_curve(y_true,y_pred)
    precision, recall, thresholds2 = precision_recall_curve(y_true,y_pred)
    roc_auc = auc(fpr, tpr)
    roc_aupr = auc(recall,precision) 
    if train == True:
        print('%s  (%s)' %(clf_name,"train"))
    else:
        print('%s  (%s)' %(clf_name,"test"))
    show_roc(roc_auc,fpr,tpr)
    print()
    show_roc_pr(roc_aupr,recall,precision)

scikit-learn中gridSearchCV的使用

步驟： 1.選擇並構建訓練模型model 2.將訓練模型model投入到GridSearchCV中，得到GridSearchCV模型grid_model 3.用grid_model擬合訓練集資料，選擇在validation_dataset上效果最好的引數的模型best_

scikit-learn中評價指標

style 說明回歸對比 kit 擬合 size 例如因變量一、R2 決定系數（擬合優度）它是表征回歸方程在多大程度上解釋了因變量的變化，或者說方程對觀測值的擬合程度如何。因為如果單純用殘差平方和會受到你因變量和自變量絕對值大小的影響，不利於在不同模型之間進

k-means+python︱scikit-learn中的KMeans聚類實現( + MiniBatchKMeans)

CP lan sina QQ mmx 機制意義預測內容之前一直用R，現在開始學python之後就來嘗試用Python來實現Kmeans。之前用R來實現kmeans的博客：筆記︱多種常見聚類模型以及分群質量評估（聚類註意事項、使用技巧）聚類分析在客戶

機器學習：SVM（scikit-learn 中的 RBF、RBF 中的超參數 γ）

import colors 機器 class 核函數 RoCE caf 情況方差一、高斯核函數、高斯函數 μ：期望值，均值，樣本平均數；（決定告訴函數中心軸的位置：x = μ） σ2：方差；（度量隨機樣本和平均值之間的偏離程度：，為總體方差，為變量，為總體

scikit-learn 中KNN分類繪圖

scikit-learn 中KNN分類繪圖參考連結： KNN相關的類庫概述： https://www.cnblogs.com/pinard/p/6065607.html 下載的toy資料集： https://blog.csdn.net/sa14023053/a

scikit-learn中的KMeans聚類實現

在這篇文章中：之前一直用R，現在開始學python之後就來嘗試用Python來實現Kmeans。之前用R來實現kmeans的部落格：筆記︱多種常見聚類模型以及分群質量評估（聚類注意事項、使用技巧）聚類分析在客戶細分中極為重要。有三類比較常見的聚類模型，K-mea

機器學習---scikit-learn中KNN演算法的封裝

1，工具準備，python環境，pycharm 2，在機器學習中，KNN是不需要訓練過程的演算法，也就是說，輸入樣例可以直接呼叫predict預測結果，訓練資料集就是模型。當然這裡必須將訓練資料和訓練標籤進行擬合才能形成模型。 3 3，在pycharm中建立新的專案工程

scikit-learn中KNN演算法資料歸一化的分裝

import numpy as np class StandardScaler: def __init__(self): """初始化""" """用符號和下劃線表示非使用者傳入的引數""" self.mean_ =

scikit-learn中的歸一化、標準化處理

什麼是歸一化：歸一化就是把一組數（大於1）化為以1為最大值，0為最小值，其餘資料按百分比計算的方法。如：1，2，3.，那歸一化後就是：0，0.5，1 歸一化步驟：如：2，4，6 （1）找出一組數裡的最小值和最大值，然後就算最大值和最小值的差值 min = 2； m

scikit-learn中的Lasson迴歸和Elastic Net迴歸

>>> from sklearn import linear_model >>> reg = linear_model.Lasso(alpha = 0.1) >>> reg.fit([[0, 0], [1, 1]], [0, 1]) Lasso(alph

scikit-learn中交叉驗證及其用於引數選擇、模型選擇、特徵選擇的例子

內容概要訓練集/測試集分割用於模型驗證的缺點 K折交叉驗證是如何克服之前的不足交叉驗證如何用於選擇調節引數、選擇模型、選擇特徵改善交叉驗證 1. 模型驗證回顧進行模型驗證的一個重要目的是要選出一個最合適的模型，對於監督學習而言，我們希望模型

scikit-learn中的SVM使用指南

本文主要包括以下內容： 1、 sklearn三個SVM分類器（sklearn.svm.LinearSVC，sklearn.svm.SVC，sklearn.svm.NuSVC）的引數詳解 2、SVM演算法調優的一些建議 3、實驗 sklearn.sv

scikit-learn中的多層感知器呼叫模型輸出資料型別為float出現Unknown label type: 'unknown'

受下面截圖的啟發，說的意思好像是輸出型別必須是絕對的（categorical），train_y後加上astype(‘int’)即可，fit(train_x,train_y.astype(‘int’))，但是不能試astype('float')，用這個還是會報錯，具體原因我不清楚，解決方法就是把輸出資

scikit-learn中關於SVM的一些常識

一 . 支援向量機的優缺點分析支援向量機（SVMs）是一個監督學習演算法集，可以用來進行分類、迴歸以及異常值檢測等任務。這種演算法的優點有：（1）在高維空間中效率非常高；（2）對於維數大於樣本數目的情況也很有效；（3）在決策函式（待優化的函式）中，只有部分訓練樣本

在virtualenv中安裝NumPy、 SciPy、 scikit-learn、 matplotlib

size http tps port pbo virt 安裝包 -i https 首先要進入對應的虛擬環境然後安裝包安裝numpy包 pip install numpy -i https://pypi.douban.com/simple 安裝scip

在PyODPS DataFrame自定義函數中使用pandas、scipy和scikit-learn

函數背景PyODPS DataFrame 提供了類似 pandas 的接口，來操作 ODPS 數據，同時也支持在本地使用 pandas，和使用數據庫來執行。PyODPS DataFrame 除了支持類似 pandas 的 map 和 apply 方法，也提供了 MapReduce API 來擴展 pandas

Scikit-learn在Python中構建機器學習分類器

機器學習是電腦科學、人工智慧和統計學的研究領域。機器學習的重點是訓練演算法以學習模式並根據資料進行預測。機器學習特別有價值，因為它讓我們可以使用計算機來自動化決策過程。在本教程中，您將使用Scikit-learn（Python的機器學習工具）在Python中實現一個簡單的機器學習演算法。您將使用Naive

python3.x中移除了cPickle模組；pycharm執行後出現no module named cv2解決方法；scikit-learn 0.18以及0.20版本中的cross_validati

1.python3.x中移除了cPickle模組，可以使用pickle模組代替。最終我們將會有一個透明高效的模組。 2、pycharm執行後出現no module named cv2解決方法在win 7 上成功安裝OpenCV之後，發現在PowerShell上能成功使用OpenC

Scikit-Learn（sklearn）中的LinearRegression（線性迴歸）對波士頓房價進行預測

線性迴歸 y=wx+b from sklearn import datasets from sklearn.linear_model import LinearRegression loaded_data = datasets.load_boston() data_X = loade

Scikit-Learn（sklearn）中的KNeighborsClassifier對鳶尾花進行分類

案例 from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier iris =

scikit-learn中gridSearchCV的使用

相關推薦