機器學習實踐（八）—sklearn之交叉驗證與引數調優

阿新 • • 發佈：2018-11-28

一、交叉驗證與引數調優

交叉驗證(cross validation)
- 交叉驗證：將拿到的訓練資料，分為訓練集、驗證集和測試集。
  - 訓練集：訓練集+驗證集
  - 測試集：測試集
- 為什麼需要交叉驗證
  - 為了讓被評估的模型更加穩健
引數調優
- 超引數搜尋-網格搜尋(Grid Search)
  
  通常情況下，有很多引數是需要手動指定的（如k-近鄰演算法中的K值），這種叫超引數。但是手動過程繁雜，所以需要對模型預設幾種超引數組合。每組超引數都採用交叉驗證來進行評估。最後選出最優引數組合建立模型。
區分交叉驗證和引數調優
- 交叉驗證
  - 使模型更穩健
- 引數調優
  - 使模型準確性更高

二、模型選擇、引數調優和交叉驗證整合 API

sklearn.model_selection.GridSearchCV(estimator, param_grid=None,cv=None)

介紹
- 對估計器的指定引數值進行詳盡搜尋
引數介紹
- estimator
  - 估計器物件
- param_grid
  - 估計器引數(dict){“n_neighbors”:[1,3,5]}
- cv
  - 指定幾折交叉驗證
return
- estimator
  - 新的估計器物件
使用新的估計器物件方法不變
- fit：輸入訓練資料
- score：準確率
新估計器物件的屬性
- bestscore:在交叉驗證中驗證的最好結果_
- bestestimator
  
  ：最好的引數模型
- cvresults:每次交叉驗證後的驗證集準確率結果和訓練集準確率結果

三、交叉驗證與引數調優-案例：鳶尾花案例增加K值調優

完整程式碼

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split,GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier

# 載入資料
iris = load_iris()

# 劃分資料集
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.3,random_state=8)

# 標準化
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)

# 指定演算法及模型選擇與調優——網格搜尋和交叉驗證
estimator = KNeighborsClassifier()
param_dict = {"n_neighbors": [1, 3, 5]}
estimator = GridSearchCV(estimator, param_grid=param_dict, cv=3)

# 訓練模型
estimator.fit(x_train,y_train)

# 模型評估
# 方法一 比對真實值與預測值
y_predict = estimator.predict(x_test)
y_test == y_predict
# 方法二 計算準確率
estimator.score(x_test,y_test)

# 然後進行評估檢視最終選擇的結果和交叉驗證的結果
print("在交叉驗證中驗證的最好結果：\n", estimator.best_score_)
print("最好的引數模型：\n", estimator.best_estimator_)
print("每次交叉驗證後的準確率結果：\n", estimator.cv_results_)

四、交叉驗證與引數調優-案例：預測facebook簽到位置

目標
- 將根據使用者的位置，準確性和時間戳預測使用者正在檢視的業務。
資料集介紹

在這裡插入圖片描述

兩個檔案
- train.csv
- test.csv
檔案欄位
- row_id：登記事件的ID
- xy：座標
- accuracy：定位準確性
- time：時間戳
- place_id：業務的ID，這是您預測的目標

官網：https://www.kaggle.com/navoshta/grid-knn/data

步驟分析
- 資料預處理
  - 縮小資料集範圍
  - 時間特徵提取
  - 將簽到數少於n的位置刪除
- 資料集劃分
- 特徵工程
  - 標準化
- KNN演算法
- GSCV優化
- 模型評估
完整程式碼

import pandas as pd
from sklearn.model_selection import GridSearchCV,train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler

#讀取資料
facebook=pd.read_csv("./data/FBlocation/train.csv")
facebook.head()

# 資料預處理
# 1> 縮小資料集範圍
facebook = facebook.query("x<1.5&x>1.25&y>2.25&y<2.5")
# 2> 時間特徵提取
time_value = pd.to_datetime(facebook['time'],unit='s')
time_value = pd.DatetimeIndex(time_value)
facebook['day'] = time_value.day
facebook['hour'] = time_value.hour
facebook['weekday'] = time_value.weekday
# 3> 刪除簽到數少於n的位置
place_count = facebook.groupby(['place_id']).count()
place_count = place_count.query('row_id>3')
facebook = facebook[facebook['place_id'].isin(place_count.index)]

# 資料集劃分
# 1> 拿取有用的特徵資料
x=facebook[['x','y','accuracy','day','hour','weekday']]
# 2> 拿取目標值資料
y=facebook['place_id']
# 3> 資料集劃分
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3,random_state=8)

# 特徵工程：標準化
# 1> 建立轉換器
transfer = StandardScaler()
# 2> 計算並標準化訓練集資料
x_train = transfer.fit_transform(x_train)
# 3> 計算並標準化測試集資料
x_test = transfer.transform(x_test)

# 模型訓練及引數優化
# 1> 例項化一個K-近鄰估計器
estimator = KNeighborsClassifier()
# 2> 運用網路搜尋引數優化KNN演算法
param_dict = {"n_neighbors":[3,5,7,9]}  # K-近鄰中分別選取這幾個 K 值，最終經過交叉驗證會返回各個取值的結果和最好的結果
estimator = GridSearchCV(estimator,param_grid=param_dict,cv=5)  # 返回優化後的估計器
# 3> 傳入訓練集，進行機器學習
estimator.fit(x_train,y_train)

# 模型評估
# 方法一：比較真實值與預測值
y_predict=estimator.predict(x_test)
print("預測值為:\n",y_predict)
print("比較真實值與預測值結果為:\n",y_predict==y_test)
# 方法二：計算模型準確率
print("模型準確率為:\n",estimator.score(x_test,y_test))
print("在交叉驗證中最的結果:\n",estimator.best_score_)
print("最好的引數模型:\n",estimator.best_estimator_)
print("每次交叉驗證後的結果準確率為/n",estimator.cv_results_)

機器學習實踐（八）—sklearn之交叉驗證與引數調優

一、交叉驗證與引數調優交叉驗證(cross validation) 交叉驗證：將拿到的訓練資料，分為訓練集、驗證集和測試集。訓練集：訓練集+驗證集測試集：測試集

機器學習實踐（七）—sklearn之K-近鄰演算法

一、K-近鄰演算法(KNN)原理 K Nearest Neighbor演算法又叫KNN演算法，這個演算法是機器學習裡面一個比較經典的演算法，總體來說KNN演算法是相對比較容易理解的演算法定義如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的

機器學習實踐（六）—sklearn之轉換器和估計器

一、sklearn轉換器想一下之前做的特徵工程的步驟？ 1 例項化 (例項化的是一個轉換器類(Transformer)) 2 呼叫fit_transform(對於文件建立分類詞頻矩陣，不能同時呼叫) 我們

機器學習實踐（三）—sklearn之特徵工程

一、特徵工程介紹 1. 為什麼需要特徵工程 Andrew Ng ： “Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learnin

機器學習實踐（二）—sklearn之資料集

一、可用資料集 Kaggle網址：https://www.kaggle.com/datasets UCI資料集網址： http://archive.ics.uci.edu/ml/ scikit-learn網址：http://scikit-learn.org/sta

機器學習實踐（一）—sklearn之概述

1956年，人工智慧元年。人類能夠創造出人類還未知的東西。這未知的東西人類能夠保證它不誤入歧途嗎。一、機器學習和人工智慧，深度學習的關係機器學習是人工智慧的一個實現途徑深度學習是機器學習的一個方法發展而來二、機器學習，深度

機器學習實踐（五）—sklearn之特徵降維

一、特徵降維概述為什麼要對特徵進行降維處理如果特徵本身存在問題或者特徵之間相關性較強，對於演算法學習預測會影響較大什麼是降維降維是指在某些限定條件下，降低隨機變數(特徵)個數，得到一組“不

機器學習實踐（四）—sklearn之特徵預處理

一、特徵預處理概述什麼是特徵預處理 # scikit-learn的解釋 provides several common utility functions and transformer classes to change raw feature vectors into

機器學習實踐（九）—sklearn之樸素貝葉斯演算法

一、樸素貝葉斯演算法什麼是樸素貝葉斯分類方法屬於哪個類別概率大，就判斷屬於哪個類別概率基礎概率定義為一件事情發生的可能性 P(X) : 取值在[0, 1] 聯合概率、條件概率與相互獨立

學習理論之模型選擇——Andrew Ng機器學習筆記（八）

內容提要這篇部落格主要的內容有： 1. 模型選擇 2. 貝葉斯統計和規則化（Bayesian statistics and regularization）最為核心的就是模型的選擇，雖然沒有那麼多複雜的公式，但是，他提供了更加巨集觀的指導，而且很多時候

機器學習筆記（八）非線性變換

nbsp 線性 logs 等於線性模型 images http 自己空間一、非線性問題對於線性不可分的數據資料，用線性模型分類，Ein會很大，相應的Ein=Eout的情況下，Eout也會很大，導致模型表現不好，此時應用非線性模型進行分類，例如：分類器模型是一個圓

機器學習實戰（八）分類迴歸樹CART（Classification And Regression Tree）

目錄 0. 前言 1. 迴歸樹 2. 模型樹 3. 剪枝（pruning） 3.1. 預剪枝 3.2. 後剪枝 4. 實戰案例 4.1. 迴歸樹 4.2. 模型樹

機器學習總結（八）決策樹ID3，C4.5演算法，CART演算法

本文主要總結決策樹中的ID3,C4.5和CART演算法，各種演算法的特點，並對比了各種演算法的不同點。決策樹：是一種基本的分類和迴歸方法。在分類問題中，是基於特徵對例項進行分類。既可以認為是if-then規則的集合，也可以認為是定義在特徵空間和類空間上的條件概率分佈。決策樹模型：決策樹由結點和有向邊組

機器學習筆記（八）：PCA降維演算法

1 - PCA概述主成份分析，簡稱為PCA，是一種非監督學習演算法，經常被用來進行資料降維有損資料壓縮特徵抽取資料視覺化 2 - PCA原理詳解通過計算資料矩陣的協方差矩陣，然後得到協方差矩陣的特徵值特徵向量，選擇特

深度學習實踐（一）—tensorflow之概述

內容預覽 1.1 深度學習與機器學習的區別 1.1.1 特徵提取方面 1.1.2 資料量和計算效能要求 1.1.3 演算法代表 1.2 深度學習的應用場景 1.2.1 影象識別 1.2

Spring 學習筆記（八）AOP 之XML方式

術語先來一發目標物件（Target）代理物件（Proxy）連線點（Joinpoint）切入點（Pointcut）通知（增強）（Advice）切面（Aspect、Advisor）織入、切入（weaving）第一步，建立目標類和切面類

機器學習筆記（八）-吳恩達視訊課程（支援向量機SVM）

1.支援向量機的優化目標以下是新建的 SVM 的影象，左邊為y=1時，右邊為y=0時然後進行轉換 2.SVM 被看做大邊界分類器（大間距）的情況在y=1時， >= 1 代價函式為0 在y=0時， <=-

機器學習筆記（八）：強化學習

前面我們介紹的機器學習演算法都屬於人工餵給機器資料，然後機器從這些資料中學得模型。而我們人類的學習過程並不是這樣，人類通過自身的感官感知環境，而後從環境中獲得經驗、知識，因此單純地依靠前面所介紹的方法並不能實現通用人工智慧。那麼有沒有辦法使得機器也能自動地不斷從周圍環境中獲得經驗或‘知識’呢？阿蘭。

機器學習筆記（八）震驚！支援向量機（SVM）居然是這種機

今天想說的呢是SVM支援向量機（support vector machine），我覺得這個演算法它初始出發的想法真的是非常符合人性，特徵空間上間隔最大的分類器，你隨便問一個人分開空間上的兩坨點最佳的平

機器學習系列（八）——Logistic迴歸解決二分類問題

機器學習實踐（八）—sklearn之交叉驗證與引數調優

一、交叉驗證與引數調優

交叉驗證(cross validation)

引數調優

區分交叉驗證和引數調優

二、模型選擇、引數調優和交叉驗證整合 API

三、交叉驗證與引數調優-案例：鳶尾花案例增加K值調優

完整程式碼

四、交叉驗證與引數調優-案例：預測facebook簽到位置

目標

資料集介紹

步驟分析

完整程式碼

相關推薦