模型評估和超引數調整（二）——交叉驗證（cross validation）

阿新 • • 發佈：2019-01-01

讀《python machine learning》chapt 6

Learning Best Practices for Model Evaluation and Hyperparameter Tuning

【主要內容】

（1）獲得對模型評估的無偏估計

（2）診斷機器學習演算法的常見問題

（3）調整機器學習模型

（4）使用不同的效能指標對評估預測模型

git原始碼地址 https://github.com/xuman-Amy/Model-evaluation-and-Hypamameter-tuning

【交叉驗證 cross-validation】

常見的交叉驗證方法holdout cv ,k-fold cv

【cross-validation ----holdout CV】

【主要思想】

將資料分為三部分：訓練集（training data ）、驗證集（validation data）、測試集（test data）

訓練集（training data ）：fit不同的模型

驗證集（validation data）：用於模型選擇

測試集（test data）：對於泛化到新資料的效能，能得到較小偏差的估計值

流程圖：

【缺點】

效能評估對於如何劃分訓練集和驗證集比較敏感，對於不同的資料樣本得到的效能評估不同。

【cross-validation ----k-fold CV】

【主要思想】

將資料集無替換的隨機分為K份，k-1份用來fit模型，剩下的一份用來效能評估。這樣重複k次，得到K個模型和效能評估結果。

在得到K個性能評估後，計算平均效能評估。

另外，也可以找到泛華能力較好的最優引數。

找到這一引數後，在整個資料集上重新訓練模型，再用獨立的測試集得到最終的效能評估。

【K=10 的流程圖】

【stratified k-fold CV】

對於k-fold CV的一個改進時stratified k-fold CV，在每個訓練集中保留了原始資料的類比例。

【sklearn實現 stratified k-fold cv】

# stratified k-fold cv
import numpy as np
from sklearn.model_selection import StratifiedKFold
Kfold = StratifiedKFold(n_splits = 10, 
                        random_state = 1).split(X_train, y_train)
scores = []
for k ,(train, test) in enumerate (Kfold):
    pipe_lr.fit(X_train[train], y_train[train])
    score = pipe_lr.score(X_train[test], y_train[test])
    scores.append(score)
    print('Fold: %2d, Class dist.: %s, Acc: %.3f' % (k+1, np.bincount(y_train[train]), score))
    
print('\nCV accuracy: %.3f +/- %.3f' % (np.mean(scores), np.std(scores)))

sklearn 提供了k-fold cross-validation scorer, 可利用stratified k-fold cross-validation直接評估模型

from sklearn.model_selection import cross_val_score
scores  = cross_val_score(estimator = pipe_lr, 
                          X = X_train,
                          y = y_train, 
                          cv = 10, 
                          n_jobs = 1)
print('CV accuracy scores:\n\n %s \n' % scores)
print('CV accuracy: %.3f +/- %.3f' % (np.mean(scores), np.std(scores)))

模型評估和超引數調整（二）——交叉驗證（cross validation）

讀《python machine learning》chapt 6 Learning Best Practices for Model Evaluation and Hyperparameter Tuning【主要內容】（1）獲得對模型評估的無偏估計（2）診斷機器學習演算法的

模型評估和超引數調整（一）——管道機制（pipeline）

兩種模型選擇和超引數調整方法及Spark MLlib使用示例(Scala/Java/Python)

機器學習除錯：模型選擇和超引數調整模型選擇（又名超引數調整）在機器學習中非常重要的任務就是模型選擇，或者使用資料來找到具體問題的最佳的模型和引數，這個過程也叫做除錯。除錯可以在獨立的如邏輯迴歸等估計器中完成，也可以在包含多樣演算法、特徵工程和其他步驟的管線

Spark機器學習之模型選擇和超引數調整

模型選擇（超引數調諧）ML中的一個重要任務是模型選擇，或使用資料找到給定任務的最佳模型或引數。這也叫調音。可以針對個體估算器（如Logistic迴歸）或包括多個演算法，特徵化和其他步驟的整個管道完成調整。使用者可以一次調整整個流水線，而不是單獨調整管道中的每個元素。

Spark2.0機器學習系列之1：基於Pipeline、交叉驗證、ParamMap的模型選擇和超引數調優

Spark中的CrossValidation Spark中採用是k折交叉驗證（k-fold cross validation）。舉個例子，例如10折交叉驗證(10-fold cross validation)，將資料集分成10份，輪流將其中9份

從零開始學caffe（四）：mnist手寫數字識別網路結構模型和超引數檔案的原始碼閱讀

下面為網路結構模型 %網路結構模型 name: "LeNet" #網路的名字"LeNet" layer { #定義一個層 name: "mnist" #層的名字"mnist" type:

自動機器學習超引數調整（貝葉斯優化）

【導讀】機器學習中，調參是一項繁瑣但至關重要的任務，因為它很大程度上影響了演算法的效能。手動調參十分耗時，網格和隨機搜尋不需要人力，但需要很長的執行時間。因此，誕生了許多自動調整超引數的方法。貝葉斯優化是一種用模型找到函式最小值方法，已經應用於機器學習問題中的超引數搜尋，這種方法效能好，同時比隨機搜尋省時。此

機器學習之模型選擇（K折交叉驗證，超引數的選擇）

來源： https://www.cnblogs.com/jerrylead/archive/2011/03/27/1996799.html 對於解決同一個問題，如怎麼選擇模型去擬合線性迴歸中只有一個特徵時房價預測問題，如可能有不同的模型去解決，如： 1、d = 1，h（

人工智慧（3）- 模型評估和調參

1.pipeline 管道利用 pipeline的概念可以從這裡抽象出來：將一件需要重複做的事情切割成各個不同的階段，每一個階段由獨立的單元負責。所有待執行的物件依次進入作業佇列。管道機智在機器學習中得以應用的根源

機器學習：模型評估和選擇

val 上一個 bootstrap 自助法 break all 誤差 rec 數據集 2.1 經驗誤差與擬合精度（accuracy）和錯誤率（error rate）：精度=1-錯誤率訓練誤差（training error）或經驗誤差（empirical error）泛

python 機器學習中模型評估和調參

劃分 gif osi 最終 http 都沒有 select enume 沒有在做數據處理時，需要用到不同的手法，如特征標準化，主成分分析，等等會重復用到某些參數，sklearn中提供了管道，可以一次性的解決該問題先展示先通常的做法 import pandas as

sklearn超引數調整方法 [GridSearchCV, RandomizedSearchCV]

模型調整，假設已經找到了一些潛在的模型，下面是幾種方法用於模型調整 1. 超引數修改網格搜尋 (grid searh) 一種方法是手動調整超引數(hyperparameters)。 GridSearchCV,引數為你想調整的超引數和該超引數的值。 class skle

根據二叉樹的前序和中序或者後序和中序來確定二叉樹結構（附例題）

根據中序和前序後序中的任意一種結構就可以確定二叉樹的結構。因為中序是按照左中右的順序來遍歷的。而前序是按照中左右的順序來確定的，我們可以通過按照前序順序來構建二叉樹，通過中序來確定二叉樹的左子樹和右子樹。後序和中序組合也是這樣，只不過後序需要從後面開始找。這裡給出兩個例題： 1.前序

CNN/RNN網路各自引數含義、如何初始化引數，BP計算以及常見超引數調整策略。。。。

今天給大家推薦一本入門深度學習必讀的權威教材，由深度學習權威Yoshua Bengio和GAN之父Ian Goodfellow等人合著的DeepLearning經典教程《Deep Learning》。廢話不多說，直接上鍊接。中文版pdf下載地址：https://p

淺談深度學習中超引數調整策略

歡迎訪問Oldpan部落格，分享人工智慧有趣訊息，持續醞釀深度學習質量文。前言深度學習中，設計模型以及保證模型的正確性是首要需要考慮的。當模型設定完成時，理論上模型不存在問題，實現效果也通過計算可以復現出來。一切準備就緒後，那麼接下來需要操作的就是——調參了。

演算法基礎（八）：超詳細最優二叉樹構建（1）

赫夫曼（Huffman）樹也稱最有二叉樹，是一類帶全路徑長度最短的樹，有著廣泛的應用。比如一棵判定樹，根據學生的成績劃分及格還是不及格還是優、中等、良好。顯然用if-else或者switch就可以簡單實現，當然可以直接毫不考慮的直接這樣寫，但是如果我們再肯花點功夫，就可以得

LeetCode 145 Binary Tree Postorder Traversal（二叉樹的興許遍歷）+（二叉樹、叠代）

int truct fin for data- right class span popu 翻譯給定一個二叉樹。返回其興許遍歷的節點的值。比如：給定二叉樹為 {1。 #， 2， 3} 1 2 / 3 返回

表達式求值（二叉樹方法/C++語言描述）（三）

urn sse 二叉返回新的求值 calc ken node 　　二叉樹方法求值對運算數處理的方法與棧方法求值不太相同，除了將字符串中的運算數轉換為浮點類型外，還需要生成新的節點： 1 void Calculator::dealWithNumber(char *&

紅黑樹-RBT（二、基本操作之左旋）

都是 spa 左旋 class body 節點圖片如果 info 一、左旋　　1、當在含有n個關鍵字的紅黑樹上運行時，TREE-INSERT和TREE-DELETE操作對樹作了修改，結果可能違反（一、紅黑樹--》2、定義）中給出的紅黑樹的性質，為了保持這些性質，就要改

創建二叉樹（二叉排序樹（Binary Sort Tree））

sort data scanf urn pre [] print 二叉樹 str #include<stdio.h> #include<stdlib.h> /* 遞歸前中後遍歷 */ typedef struct node { int data;

模型評估和超引數調整（二）——交叉驗證 （cross validation）

【主要內容】

【交叉驗證 cross-validation】

【cross-validation ----holdout CV】

【主要思想】

流程圖：

【缺點】

【cross-validation ----k-fold CV】

【主要思想】

【K=10 的 流程圖】

相關推薦

模型評估和超引數調整（二）——交叉驗證（cross validation）

【K=10 的流程圖】