基於scikit-learn工具的交叉檢驗 — cross_validation模型

阿新 • • 發佈：2019-01-01

1. 何為交叉檢驗

在進行資料探勘的工作或者比賽中，通常都是給定一個train訓練資料集和一個test測試資料集，然後採用一個或多個模型對train進行訓練，最後將訓練完成得到的模型用於test 的預測。然後問題來了，我們怎麼確定我們對train 訓練的模型是優秀的呢？
那麼我們會想到從原來的train 資料集中分成兩部分 train_1,train_2,拿train_1去訓練，然後將訓練完成的結果帶入另一部分train_2去驗證。因為這時另一部分也是有target的，所以可以驗證出模型的效果。
但是這樣也有一個弊端，因為我們一直在將模型優化到使train_2 的結果越來越好的狀態，可是我們的最終目的是要預測test, 而我們不停的優化train_2的結果很可能會造成在train_2 上的過擬合。因此我們不能只分一份來做驗證，而是採用多份資料去驗證，然後求平均；這樣就避免了對謀一份驗證資料的過擬合。這就叫交叉檢驗。

下面我主要介紹通過sklearn中的cross_validation 來做交叉檢驗

2. cross_validation

2.1 cross_validation.KFold

KFold(n,n_fold=3,shuffle=False,random_state=None)

n 樣本個數
n_fold 分為多少份，至少為2，每份樣本個數相同

例1

from sklearn import cross_validation
k_fold = cross_validation.KFold(n=12,n_folds=4)
for train_indices,test_indices in 
 k_fold:
    print train_indices,test_indices

例2

from sklearn import cross_validation
from sklearn import datasets,svm
digits = datasets.load_digits()
X_digits = digits.data
y_digits = digits.target
clf = svm.SVC(kernel='linear',C=1)
k_fold = cross_validation.KFold(len(X_digits),n_folds=10)
print 
 [clf.fit(X_digits[train],y_digits[train]).score(X_digits[test],y_digits[test]) for train ,test in k_fold]

還有一個函式，可以不需要寫for迴圈，直接得到結果

cross_validation.cross_val_score(clf,X_digits,y_digits,cv=10)

2.2 cross_validation.StratifiedKFold

StratifiedKFold 是kFold 的變形，它劃分的時候是將每個類別的相同比例的樣本進行搭配作為1個fold,

StratifiedKFold(y,n_folds=3,shuffle=False,random_state=None)

y 樣本標籤

例子

import numpy as np
from sklearn import cross_validation
X=np.array([[1,2],[3,4],[1,2],[3,4],[1,2],[3,4],[1,2],[3,4]])
y=np.array([0,0,1,1,0,0,1,1])
skf = cross_validation.StratifiedKFold(y,n_folds=4)
for skf1,skf2 in skf:
    print skf1,skf2

基於scikit-learn工具的交叉檢驗 — cross_validation模型

1. 何為交叉檢驗

2. cross_validation

2.1 cross_validation.KFold

2.2 cross_validation.StratifiedKFold

基於scikit-learn工具的交叉檢驗 — cross_validation模型

【scikit-learn】交叉驗證及其用於引數選擇、模型選擇、特徵選擇的例子

scikit-learn中交叉驗證及其用於引數選擇、模型選擇、特徵選擇的例子

分享《機器學習實戰：基於Scikit-Learn和TensorFlow》高清中英文PDF+原始碼

分享《機器學習實戰：基於Scikit-Learn和TensorFlow》高清中英文PDF+源代碼

基於scikit-learn實現k近鄰演算法（kNN）與超引數的除錯

分享《機器學習實戰：基於Scikit-Learn和TensorFlow》+PDF+Aurelien

分享《機器學習實戰：基於Scikit-Learn和TensorFlow》高清中英文PDF+原始碼免費

分享《機器學習實戰基於Scikit-Learn和TensorFlow》中英文PDF原始碼+《深度學習之TensorFlow入門原理與進階實戰》PDF+原始碼

用scikit-learn的joblib儲存訓練模型

[python] 使用scikit-learn工具計算文字TF-IDF值

基於scikit-learn的樸素貝葉斯實戰

XGBoost演算法解析和基於Scikit-learn的GBM演算法實現

【甘道夫】基於scikit-learn實現邏輯迴歸LogisticRegression

python資料探勘入門與實踐--------電離層（Ionosphere）, scikit-learn估計器，K近鄰分類器，交叉檢驗，設定引數

Python scikit-learn機器學習工具包學習筆記：cross_validation模組

評估深度學習模型-在keras中使用scikit-learn-基於keras的python學習筆記（三）

用scikit-learn學習LDA主題模型

scikit-learn 線性迴歸模型的score函式，返回值是決定係數R^2

利用Scikit-Learn為模型自動調參

基於scikit-learn工具的交叉檢驗 — cross_validation模型

1. 何為交叉檢驗

2. cross_validation

2.1 cross_validation.KFold

2.2 cross_validation.StratifiedKFold

相關推薦