1. 程式人生 > >GradSearchCv 自定義驗證集

GradSearchCv 自定義驗證集


首先解釋一下什麼叫使用自定義驗證集進行模型調參。GridSearchCV預設使用的模型驗證方法是KFold交叉驗證,但很多時候我們自己已經預先分配好了驗證集,我們就要在這個驗證集上評價模型好壞(有些任性),所以我們並不需要GridSearchCV為我們自動產生驗證集,這就是所謂的使用自定義驗證集進行模型調參。好了,我們首先簡單認識一下GridSearchCV的使用。

1. 問題背景
現在假設我有一個訓練集,特徵為陣列train_features,標籤為陣列train_labels。我還有一個測試集,特徵為陣列test_features,沒有標籤。我希望在訓練集上學習一個線性SVM,來預測測試集標籤。我們知道,SVM有一些超引數需要人工設定,對於線性SVM,最關鍵的應該就是懲罰引數C。如何找到最優的C呢?通常情況下,我們使用KFold交叉驗證。下面就簡單介紹一下。

2. GridSearchCV使用簡介
直接上程式碼:

import numpy as np
from sklearn.grid_search import GridSearchCV
from sklearn.svm import LinearSVC
from sklearn.externals import joblib

train_features = np.load('train_features.npy')
train_labels = np.load('train_labels.npy')
test_features = np.load('test_features.npy')

clf = LinearSVC(random_state=0)
params_search = {'C':[1,10,100,1000]} # 我們想要優化的引數
grid_search_params = {'estimator': clf, # 目標分類器
'param_grid': params_search, # 前面定義的我們想要優化的引數
'cv': 3, # 交叉驗證split策略
'n_jobs': -1, # 並行執行的任務數,-1表示使用所有CPU
'verbose': 32} # 輸出資訊,數字越大輸出資訊越多
grsearch = GridSearchCV(**grid_search_params)
grsearch.fit(train_features, train_labels)
joblib.dump(grsearch, 'grsearch.model')

bst = grsearch.best_estimator_
preds = bst.predict(test_features)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
在上面的程式碼中,我們使用3-fold交叉驗證策略需找C的最優取值,每次的驗證集從總的訓練集中隨機產生。

3. 使用自定義驗證集
現在假設我們已經通過某種方式自己定義了訓練集和驗證集的劃分方式,分別為train_features和val_features,我們並不想使用隨機的劃分,這時候要怎麼辦呢?可以使用PredefinedSplit。

import numpy as np
from sklearn.grid_search import GridSearchCV
from sklearn.cross_validation import PredefinedSplit
from sklearn.svm import LinearSVC
from sklearn.externals import joblib

train_features = np.load('train_features.npy')
train_labels = np.load('train_labels.npy')
val_features = np.load('val_features.npy')
val_labels = np.load('val_labels.npy')
test_features = np.load('test_features.npy')

# 合併訓練集和驗證集
train_val_features = np.concatenate((train_features,val_features ),axis=0)
train_val_labels = np.concatenate((train_labels,val_labels ),axis=0)

clf = LinearSVC(random_state=0)
test_fold = np.zeros(train_val_features.shape[0]) # 將所有index初始化為0,0表示第一輪的驗證集
test_fold[:train_features.shape[0]] = -1 # 將訓練集對應的index設為-1,表示永遠不劃分到驗證集中
ps = PredefinedSplit(test_fold=test_fold)
params_search = {'C':[1,10,100,1000]}
grid_search_params = {'estimator': clf, # 目標分類器
'param_grid': params_search, # 前面定義的我們想要優化的引數
'cv': ps, # 使用前面自定義的split驗證策略
'n_jobs': -1, # 並行執行的任務數,-1表示使用所有CPU
'verbose': 32} # 輸出資訊,數字越大輸出資訊越多
print train_features.shape
print train_labels.shape
grsearch = GridSearchCV(**grid_search_params)
grsearch.fit(train_test_features, train_test_labels)

joblib.dump(grsearch, model_save_path)
bst = grsearch.best_estimator_
preds = bst.predict(test_features)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
這裡test_fold是一個索引list,用於劃分資料集。除了上面使用的固定一個驗證集,還可以劃分多重驗證集。加入資料集中有4個樣本,那麼test_fold = [0, 1, -1, 1]就表示在第一個驗證集包含索引值為0的樣本,第二個驗證集包含引值為1的樣本,以此類推,從而建立自定義的多重驗證集。
這裡有一段程式碼展示了這種劃分方式:

>>> from sklearn.cross_validation import PredefinedSplit
>>> X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])
>>> y = np.array([0, 0, 1, 1])
>>> ps = PredefinedSplit(test_fold=[0, 1, -1, 1])
>>> len(ps)
2
>>> print(ps)
sklearn.cross_validation.PredefinedSplit(test_fold=[ 0 1 -1 1])
>>> for train_index, test_index in ps:
... print("TRAIN:", train_index, "TEST:", test_index)
... X_train, X_test = X[train_index], X[test_index]
... y_train, y_test = y[train_index], y[test_index]
TRAIN: [1 2 3] TEST: [0]
TRAIN: [0 2] TEST: [1 3]
---------------------
作者:isMarvellous
來源:CSDN
原文:https://blog.csdn.net/isMarvellous/article/details/78195010
版權宣告:本文為博主原創文章,轉載請附上博文連結!