交叉驗證（cross validation）

阿新 • • 發佈：2019-01-11

針對不同引數和結構的模型，他們的泛化能力我們為了評估無從可知，為了瞭解模型的泛化能力，我們引入了交叉驗證。所以我們在劃分資料集的時候，通常會將資料集劃分為三個資料集，三個資料集分別是：訓練集（train set），評估集(valid set)和測試集（test set）。交叉驗證結果越小，說明模型的泛化能力越強。

1.過擬合

一個小栗子說明模型的泛化能力：

例如多項式函式f(x) = a0 + ax^1 + ax^2 +......

我們知道，當多專案函式的冪次項越高，模型的擬合效果越好，但是也同時會產生一定的過擬合。

2.交叉驗證

交叉驗證的一個極端叫去一法。即每次從資料中取出一個樣本，然後用剩餘的樣本進行訓練。K折交叉驗證即將資料分為K個部分，每次取其中一個部分，剩餘部分用來做測試，共需要進行K次。一般用用5折和10折交叉驗證。下圖（5折交叉驗證）能夠很好的反應交叉驗證的方法：

注意在生成資料折的時候，一定要謹慎資料的分佈，不能讓某一個折的資料中的所有樣本都屬於同一類，那這個資料上就得不到有代表性的結果。但是最終模型還是用所有的訓練集資料訓練得到的模型。

在sklearn中有相關的工具包，能夠進行Kfold交叉驗證。

from sklearn.cross_validation import KFold

boston = load_boston()
x      = boston.data[:,5]
kf     = KFold(len(x),n_folds=10)

#這樣會將資料按照順序分為十份。在自己製作資料集的時候，可以有意的將資料打亂，以保證資料的均勻性。也可以改變函式得引數以實現資料的均勻分佈

其中KFold函式如下：

sklearn.cross_validation.KFold(n, n_folds, shuffle=False, random_state=None)

交叉驗證（cross validation）

【尋優演算法】交叉驗證（Cross Validation）引數尋優的python實現：多引數尋優

【尋優演算法】交叉驗證（Cross Validation）引數尋優的python實現：單一引數尋優

交叉驗證（Cross-validation）

【機器學習】交叉驗證（cross-validation）

[轉載] 交叉驗證（Cross Validation）簡介

模型評估和超引數調整（二）——交叉驗證（cross validation）

交叉驗證（Cross Validation）與網格搜尋（Grid Search）的原理及實證分析

Udacity機器學習入門——交叉驗證（cross-validation）

sklearn中的交叉驗證（Cross-Validation）

交叉驗證（cross validation）

斯坦福大學機器學習——交叉驗證（Cross Validation）

Tensorflow中的交叉熵（Cross Entropy）

內連線、左外連線、右外連線、全外連線、交叉連線（CROSS JOIN）-----小知識解決大資料攻略

【聯絡】二項分佈的對數似然函式與交叉熵（cross entropy）損失函式

二項分佈的對數似然函式與交叉熵（cross entropy）損失函式的聯絡

機器學習演算法：交叉驗證——（監督）學習器效能評估方法 [ sklearn.model_selection.cross_val_score()官方翻譯 ]

理解交叉熵損失（Cross-Entropy）

廣義交叉驗證（GCV）

基於session和cookie的登錄驗證（CBV模式）

SpringCloud利用閘道器攔截做Token驗證（JWT方式） SpringCloud利用閘道器攔截做Token驗證（JWT方式）

交叉驗證（cross validation）

相關推薦