【火爐煉AI】機器學習017-使用GridSearch搜索最佳參數組合
【火爐煉AI】機器學習017-使用GridSearch搜索最佳參數組合
(本文所使用的Python庫和版本號: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )
在前面的文章(【火爐煉AI】機器學習012-用隨機森林構建汽車評估模型及模型的優化提升方法),我們使用了驗證曲線來優化模型的超參數,但是使用驗證曲線難以同時優化多個參數的取值,只能一個參數一個參數的優化,從而獲取每個參數的最優值,但是有時候,一個非常優秀的模型,可能A參數取最優值時,B參數並不一定是最優值,從而使得驗證曲線的方式有其自身的弊端。
此處介紹的使用GridSearch來搜索最佳參數組合的方法,可以避免上述弊端,GridSearch可以同時優化多個不同參數的取值。
1. 準備數據集
數據集的準備工作和文章(【火爐煉AI】機器學習014-用SVM構建非線性分類模型)中一模一樣,此處不再贅述。
2. 使用GridSearch函數來尋找最優參數
使用GridSearch函數來尋找最優參數,需要首先定義要搜索的參數候選值,然後定義模型的評價指標,以此來評價模型的優虐。,GridSearch會自動計算各種參數候選值,從而得到最佳的參數組合,使得評價指標最大化。
from sklearn import svm, grid_search, cross_validation from sklearn.metrics import classification_report parameter_grid = [ {‘kernel‘: [‘linear‘], ‘C‘: [1, 10, 50, 600]}, # 需要優化的參數及其候選值 {‘kernel‘: [‘poly‘], ‘degree‘: [2, 3]}, {‘kernel‘: [‘rbf‘], ‘gamma‘: [0.01, 0.001], ‘C‘: [1, 10, 50, 600]}, ] metrics = [‘precision‘, ‘recall_weighted‘] # 評價指標好壞的標準 for metric in metrics: print("Searching optimal hyperparameters for: {}".format(metric)) classifier = grid_search.GridSearchCV(svm.SVC(C=1), parameter_grid, cv=5, scoring=metric) classifier.fit(train_X, train_y) print("\nScores across the parameter grid:") for params, avg_score, _ in classifier.grid_scores_: # 打印出該參數下的模型得分 print(‘{}: avg_scores: {}‘.format(params,round(avg_score,3))) print("\nHighest scoring parameter set: {}".format(classifier.best_params_)) y_pred =classifier.predict(test_X) # 此處自動調用最佳參數?? print("\nFull performance report:\n {}".format(classification_report(test_y,y_pred)))
-------------------------------------輸---------出--------------------------------
Searching optimal hyperparameters for: precision
Scores across the parameter grid:
{‘C‘: 1, ‘kernel‘: ‘linear‘}: avg_scores: 0.809
{‘C‘: 10, ‘kernel‘: ‘linear‘}: avg_scores: 0.809
{‘C‘: 50, ‘kernel‘: ‘linear‘}: avg_scores: 0.809
{‘C‘: 600, ‘kernel‘: ‘linear‘}: avg_scores: 0.809
{‘degree‘: 2, ‘kernel‘: ‘poly‘}: avg_scores: 0.859
{‘degree‘: 3, ‘kernel‘: ‘poly‘}: avg_scores: 0.852
{‘C‘: 1, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}: avg_scores: 1.0
{‘C‘: 1, ‘gamma‘: 0.001, ‘kernel‘: ‘rbf‘}: avg_scores: 0.0
{‘C‘: 10, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}: avg_scores: 0.968
{‘C‘: 10, ‘gamma‘: 0.001, ‘kernel‘: ‘rbf‘}: avg_scores: 0.855
{‘C‘: 50, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}: avg_scores: 0.946
{‘C‘: 50, ‘gamma‘: 0.001, ‘kernel‘: ‘rbf‘}: avg_scores: 0.975
{‘C‘: 600, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}: avg_scores: 0.948
{‘C‘: 600, ‘gamma‘: 0.001, ‘kernel‘: ‘rbf‘}: avg_scores: 0.968
Highest scoring parameter set: {‘C‘: 1, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}
Full performance report:
precision recall f1-score support
0 0.75 1.00 0.86 36
1 1.00 0.69 0.82 39
avg / total 0.88 0.84 0.84 75
Searching optimal hyperparameters for: recall_weighted
Scores across the parameter grid:
{‘C‘: 1, ‘kernel‘: ‘linear‘}: avg_scores: 0.653
{‘C‘: 10, ‘kernel‘: ‘linear‘}: avg_scores: 0.653
{‘C‘: 50, ‘kernel‘: ‘linear‘}: avg_scores: 0.653
{‘C‘: 600, ‘kernel‘: ‘linear‘}: avg_scores: 0.653
{‘degree‘: 2, ‘kernel‘: ‘poly‘}: avg_scores: 0.889
{‘degree‘: 3, ‘kernel‘: ‘poly‘}: avg_scores: 0.884
{‘C‘: 1, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}: avg_scores: 0.76
{‘C‘: 1, ‘gamma‘: 0.001, ‘kernel‘: ‘rbf‘}: avg_scores: 0.507
{‘C‘: 10, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}: avg_scores: 0.907
{‘C‘: 10, ‘gamma‘: 0.001, ‘kernel‘: ‘rbf‘}: avg_scores: 0.658
{‘C‘: 50, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}: avg_scores: 0.92
{‘C‘: 50, ‘gamma‘: 0.001, ‘kernel‘: ‘rbf‘}: avg_scores: 0.72
{‘C‘: 600, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}: avg_scores: 0.933
{‘C‘: 600, ‘gamma‘: 0.001, ‘kernel‘: ‘rbf‘}: avg_scores: 0.902
Highest scoring parameter set: {‘C‘: 600, ‘gamma‘: 0.01, ‘kernel‘: ‘rbf‘}
Full performance report:
precision recall f1-score support
0 1.00 0.92 0.96 36
1 0.93 1.00 0.96 39
avg / total 0.96 0.96 0.96 75
--------------------------------------------完-------------------------------------
########################小**********結###############################
1. 使用GridSearch中的GridSearchCV可以實現最佳參數組合的搜索,但需要指定候選參數和模型的評價指標。
2. 使用classifier.best_params_函數可以直接把最佳的參數組合打印出來,方便以後參數的直接調用
3. classifier.predict函數是自動調用最佳的參數組合來預測,從而得到該模型在測試集或訓練集上的預測值。
#################################################################
如果要使用最佳參數來構建SVM模型,可以采用下面的代碼來實現:
best_classifier=svm.SVC(C=600,gamma=0.01,kernel=‘rbf‘) # 上面的full performance report的確使用的是最佳參數組合
best_classifier.fit(train_X, train_y)
y_pred =best_classifier.predict(test_X)
print("\nFull performance report:\n {}".format(classification_report(test_y,y_pred)))
得到的結果和上面full performance report一模一樣。
註:本部分代碼已經全部上傳到(我的github)上,歡迎下載。
參考資料:
1, Python機器學習經典實例,Prateek Joshi著,陶俊傑,陳小莉譯
【火爐煉AI】機器學習017-使用GridSearch搜索最佳參數組合