使用交叉驗證對鳶尾花分類模型進行調參(超參數)

阿新 • • 發佈：2018-09-15

www. eight data svc ans 分塊分類 app files

如何選擇超參數：

交叉驗證：

如圖，

大訓練集分塊，使用不同的分塊方法分成N對小訓練集和驗證集。
使用小訓練集進行訓練，使用驗證集進行驗證，得到準確率，求N個驗證集上的平均正確率；
使用平均正確率最高的超參數，對整個大訓練集進行訓練，訓練出參數。
在訓練集上訓練。

十折交叉驗證

網格搜索

諸如你有多個可調節的超參數，那麽選擇超參數的方法通常是網格搜索，即固定一個參、變化其他參，像網格一樣去搜索。

# 人工智能數據源下載地址：https://video.mugglecode.com/data_ai.zip，下載壓縮包後解壓即可（數據源與上節課相同） 

# -*- coding: utf-8 -*-

"""
    任務：鳶尾花識別
"""
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC


DATA_FILE = ‘./data_ai/Iris.csv‘

SPECIES_LABEL_DICT  
= {
    ‘Iris-setosa‘:      0,  # 山鳶尾
    ‘Iris-versicolor‘:  1,  # 變色鳶尾
    ‘Iris-virginica‘:   2   # 維吉尼亞鳶尾
}

# 使用的特征列
FEAT_COLS = [‘SepalLengthCm‘, ‘SepalWidthCm‘, ‘PetalLengthCm‘, ‘PetalWidthCm‘]


def main():
    """
        主函數
    """
    # 讀取數據集
    iris_data = pd.read_csv(DATA_FILE, index_col=‘ 
Id‘)
    iris_data[‘Label‘] = iris_data[‘Species‘].map(SPECIES_LABEL_DICT)

    # 獲取數據集特征
    X = iris_data[FEAT_COLS].values

    # 獲取數據標簽
    y = iris_data[‘Label‘].values

    # 劃分數據集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1/3, random_state=10)

    model_dict = {‘kNN‘:
                      (
                          KNeighborsClassifier(),
                          {‘n_neighbors‘: [5, 15, 25], ‘p‘: [1, 2]}
                       ),
                  ‘Logistic Regression‘:
                      (
                          LogisticRegression(),
                          {‘C‘: [1e-2, 1, 1e2]}
                      ),
                  ‘SVM‘:
                      (
                          SVC(),
                          {‘C‘: [1e-2, 1, 1e2]}
                      )
                  }   # 名稱+元組

    for model_name, (model, model_params) in model_dict.items():
        # 訓練模型
        clf = GridSearchCV(estimator=model, param_grid=model_params, cv=5) #模型、參數、折數
        clf.fit(X_train, y_train)   #訓練
        best_model = clf.best_estimator_   #最佳模型的對象

        # 驗證
        acc = best_model.score(X_test, y_test)
        print(‘{}模型的預測準確率：{:.2f}%‘.format(model_name, acc * 100))
        print(‘{}模型的最優參數：{}‘.format(model_name, clf.best_params_))       #最好的模型名稱和參數


if __name__ == ‘__main__‘:
    main()

運行結果：

kNN模型的預測準確率：96.00%
kNN模型的最優參數：{‘n_neighbors‘: 15, ‘p‘: 2}
Logistic Regression模型的預測準確率：96.00%
Logistic Regression模型的最優參數：{‘C‘: 100.0}
SVM模型的預測準確率：98.00%
SVM模型的最優參數：{‘C‘: 1}

練習

練習：使用交叉驗證對水果分類模型進行調參

題目描述：為模型選擇最優的參數並進行水果類型識別，模型包括kNN，邏輯回歸及SVM。對應的超參數為：
kNN中的近鄰個數n_neighbors及閔式距離的p值
邏輯回歸的正則項系數C值
SVM的正則項系數C值
題目要求:
使用3折交叉驗證對模型進行調參
使用scikit-learn提供的方法為模型調參
數據文件：
數據源下載地址：https://video.mugglecode.com/fruit_data.csv（數據源與上節課相同）
fruit_data.csv，包含了59個水果的的數據樣本。
共5列數據
fruit_name：水果類別
mass: 水果質量
width: 水果的寬度
height: 水果的高度
color_score: 水果的顏色數值，範圍0-1。
0.85 - 1.00：紅色
0.75 - 0.85: 橙色
0.65 - 0.75: 黃色
0.45 - 0.65: 綠色

image

可能的代碼

import pandas as pd
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

#讀取數據
data = pd.read_csv(‘./data_ai/fruit_data.csv‘)

#數據處理
fruit_dict = {
    ‘apple‘:    0,
    ‘lemon‘:    1,
    ‘mandarin‘: 2,
    ‘orange‘:   3
}

data[‘label‘] = data[‘fruit_name‘].map(fruit_dict)

feat_cols = [‘mass‘,‘width‘,‘height‘,‘color_score‘]

#數據提取
X = data[feat_cols].values
y = data[‘label‘].values

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=1/5, random_state= 3)

model_dict = {
    ‘KNN‘: ( KNeighborsClassifier(), {‘n_neighbors‘: [5,15,25], ‘p‘ : [1,2]} ),
    ‘Logestic Regression‘: (LogisticRegression(), {‘C‘:[1e02, 1, 1e2] }),
    ‘SVM‘: (SVC(), {‘C‘:[1e02, 1, 1e2]})
}

for model_name, (model, model_para) in model_dict.items():
    #訓練
    clf = GridSearchCV(estimator=model, param_grid=model_para, cv=5)  # 模型、參數、折數
    clf.fit(X_train,y_train)
    best_model = clf.best_estimator_

    #驗證
    acc = best_model.score(X_test, y_test)
    print(f‘{model_name}中選擇{clf.best_params_}為參數的預測準確率最好，準確率可達{acc*100}%‘)

運行結果：

KNN中選擇{‘n_neighbors‘: 5, ‘p‘: 1}為參數的預測準確率最好，準確率可達66.66666666666666%
Logestic Regression中選擇{‘C‘: 100.0}為參數的預測準確率最好，準確率可達91.66666666666666%
SVM中選擇{‘C‘: 100.0}為參數的預測準確率最好，準確率可達50.0%

作者：夏威夷的芒果
鏈接：https://www.jianshu.com/p/790ac622dc18
來源：簡書

使用交叉驗證對鳶尾花分類模型進行調參(超參數)

www. eight data svc ans 分塊分類 app files 如何選擇超參數：交叉驗證：如圖，大訓練集分塊，使用不同的分塊方法分成N對小訓練集和驗證集。使用小訓練集進行訓練，使用驗證集進行驗證，得到準確率，求N個驗證集上的平均正確率；使用平均

樸素貝葉斯對鳶尾花資料集進行分類

注：本人純粹為了練手熟悉各個方法的用法使用高斯樸素貝葉斯對鳶尾花資料進行分類程式碼： 1 # 通過樸素貝葉斯對鳶尾花資料進行分類 2 3 from sklearn import datasets 4 from sklearn.model_selection import train_

Spark2.0機器學習系列之1：基於Pipeline、交叉驗證、ParamMap的模型選擇和超引數調優

Spark中的CrossValidation Spark中採用是k折交叉驗證（k-fold cross validation）。舉個例子，例如10折交叉驗證(10-fold cross validation)，將資料集分成10份，輪流將其中9份

留出法、K折交叉驗證、留一法進行數據集劃分

leave targe lec digits 行數據 import one 訓練訓練集 from sklearn import datasets from sklearn import model_selection #引入sklearn庫中手寫數字的數據集 digit

使用K近鄰（KNN）對鳶尾花分類

KNN演算法的精髓在於近朱者赤近墨者黑，所以距離通過歐氏距離或者夾角餘弦來計算。他的主要計算步驟為： 1.算距離：給定測試物件，計算它與訓練集中的每個物件的距離 2.尋找鄰居：圈定距離最近的K個訓練物件，作為測試物件的近鄰。 3.做分類：根據這K個近鄰歸屬的主要類別，來

EL之RF(RFC)：利用RF對二分類問題進行建模並評估

EL之RF(RFC)：利用RF對二分類問題進行建模並評估輸出結果設計思路核心程式碼 auc = [] nTreeList = range(50, 2000, 50) for iTrees in nTreeList:

EL之RF(RFC)：利用RF對多分類問題進行建模並評估(六分類+分層抽樣)

EL之RF(RFC)：利用RF對多分類問題進行建模並評估(六分類+分層抽樣) 輸出結果設計思路核心程式碼 missCLassError = [] nTreeList = range(50, 2000, 50) for iTrees in n

EL之GB(GBC)：利用GB對二分類問題進行建模並評估

EL之GB(GBC)：利用GB對二分類問題進行建模並評估輸出結果 T1、純GB演算法 T2、以RF為基學習器的GB演算法設計思路核心程式碼

通過網格搜尋和巢狀交叉驗證尋找機器學習模型的最優引數

在機器學習的模型中，通常有兩類引數，第一類是通過訓練資料學習得到的引數，也就是模型的係數，如迴歸模型中的權重係數，第二類是模型演算法中需要進行設定和優化的超參，如logistic迴歸中的正則化係數和決策樹中的樹的深度引數等。在上一篇文章中，我們通過驗證曲線來尋找最優的超參，在

分類預測，交叉驗證調超參數

date ESS read 實現簡單轉化 random end app ive 調參數是一件很頭疼的事情，今天學習到一個較為簡便的跑循環交叉驗證的方法，雖然不是最好的，如今網上有很多調參的技巧，目前覺得實現簡單的，以後了解更多了再更新。 import numpy as

Tensorflow學習教程------利用卷積神經網路對mnist資料集進行分類_利用訓練好的模型進行分類

#coding:utf-8 import tensorflow as tf from PIL import Image,ImageFilter from tensorflow.examples.tutorials.mnist import input_data def imageprepare(ar

學習筆記（七）模型的調參之網格搜尋和交叉驗證的簡單應用

學習筆記（七）模型的調參之網格搜尋和交叉驗證的簡單應用資料概述交叉驗證 1. Cross——Validation 交叉驗證 2. k折交叉驗證（kfold） 3.留一法Leave-one-out Cross-validation

[PyTorch小試牛刀]實戰二·實現邏輯迴歸對鳶尾花進行分類

[PyTorch小試牛刀]實戰二·實現邏輯迴歸對鳶尾花進行分類程式碼使用均方根誤差 import numpy as np import pandas as pd import matplotlib.pyplot as plt import torch as t fr

Scikit-Learn（sklearn）中的KNeighborsClassifier對鳶尾花進行分類

案例 from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier iris =

ML之分類預測之ElasticNet：利用ElasticNet迴歸對二分類資料集構建二分類器(DIY交叉驗證+分類的兩種度量PK)

ML之分類預測之ElasticNet：利用ElasticNet迴歸對二分類資料集構建二分類器(DIY交叉驗證+分類的兩種度量PK) 輸出結果設計思路核心程式碼 #(4)交叉驗證 for ixval in range(

[讀書筆記] 《Python 機器學習》- 使用巢狀交叉驗證進行模型選擇

摘要通過巢狀交叉驗證選擇演算法（外部迴圈通過k-折等進行引數優化，內部迴圈使用交叉驗證），我們可以對特定資料集進行模型選擇程式碼 # 6.4.2: 巢狀交叉驗證選擇演算法，用於在不同的機器學習演算法中進行選擇 import matplotli

matlab 下交叉驗證與 svm （多分類）模型的使用

筆記下面是程式碼，註釋一般都能看懂的。%datas為讀入的資料集 labels為讀入的標籤 %規範化資料 [datas_normal] = premnmx(datas) ; %交叉驗證 k =10

模型調優：交叉驗證，超引數搜尋(複習17)

用模型在測試集上進行效能評估前，通常是希望儘可能利用手頭現有的資料對模型進行調優，甚至可以粗略地估計測試結果。通常，對現有資料進行取樣分割：一部分資料用於模型引數訓練，即訓練集；一部分資料用於調優模型配

對中間過程進行調試

調試 del caffe roc 生成 director set multi target 這是觀測stage2生成的rpn情況的代碼： #!/usr/bin/env python # ------------------------------------------

WEBAPI使用過濾器對API接口進行驗證

anon log req code oid 是否 func parameter html 用戶登錄控制器：[ActionFilter]自定義過濾器用戶信息：var userData = new JObject(); userData.A

使用交叉驗證對鳶尾花分類模型進行調參(超參數)

如何選擇超參數：

交叉驗證：

網格搜索

練習

相關推薦