機器學習 scikit-learn3 模型實踐 - 支援向量機和決策樹

阿新 • • 發佈：2018-11-24

支援向量機和決策樹 - 目錄

1 簡介

1.1 程式碼下載
1.2 程式碼使用方法

3 核心程式碼說明

3.1 模型配置
3.2 模型訓練
3.3 輸出結果

3.3.1 LinearSVC
3.3.2 SVC linear
3.3.2 SVC ploy
3.3.2 rf

1 簡介

1.1 程式碼下載

程式碼路徑，歡迎 star~~
https://github.com/spareribs/kaggleSpareribs/blob/master/Overdue/ml/code/sklearn_config.py

https://github.com/spareribs/kaggleSpareribs/blob/master/Overdue/ml/code/sklearn_train.py

1.2 程式碼使用方法

【必須】config.py 設定檔案存放的路徑
【必須】先執行 features 中的 base.py 先把資料處理好 [PS:需要根據實際情況修改]
【可選】再通過 code 中的 sklearn_config.py 設定模型的引數[PS: 按需修改]
【必須】最後通過 code 中的 sklearn_train.py 訓練模型輸出結果

3 核心程式碼說明

3.1 模型配置

""" 開啟交叉驗證 """
status_vali = False
""" 模型引數 """
clfs = {
	'svm': LinearSVC(C=0.5, penalty='l2', dual=True),
	'svm_linear': SVC(kernel='linear', probability=True),
	'svm_ploy': SVC(kernel='poly', probability=True),
	'rf': RandomForestClassifier(n_estimators=10, criterion='gini'),
}

3.2 模型訓練

可以修改模型的選擇 [ svm, svm_linear, svm_ploy, rf ]

""" 1 讀取資料 """
data_fp = open(features_path, 'rb')
x_train, y_train = pickle.load(data_fp)
data_fp.close()

""" 2 訓練分類器, clf_name選擇需要的分類器 """
clf_name = "svm"
clf = clfs[clf_name]
clf.fit(x_train, y_train)

""" 3 在驗證集上評估模型 """
if status_vali:
    print("測試模型 & 模型引數如下：\n{0}".format(clf))
    print("=" * 20)
    pre_train = clf.predict(x_train)
    print("訓練集正確率: {0:.4f}".format(clf.score(x_train, y_train)))
    print("訓練集f1分數: {0:.4f}".format(f1_score(y_train, pre_train)))
    print("訓練集auc分數: {0:.4f}".format(roc_auc_score(y_train, pre_train)))
    print("-" * 20)
    pre_vali = clf.predict(x_vali)
    print("測試集正確率: {0:.4f}".format(clf.score(x_vali, y_vali)))
    print("測試集f1分數: {0:.4f}".format(f1_score(y_vali, pre_vali)))
    print("測試集auc分數: {0:.4f}".format(roc_auc_score(y_vali, pre_vali)))
    print("=" * 20)

3.3 輸出結果

3.3.1 LinearSVC

測試模型 & 模型引數如下：
LinearSVC(C=0.5, class_weight=None, dual=True, fit_intercept=True, intercept_scaling=1, loss='squared_hinge', 
          max_iter=1000, multi_class='ovr', penalty='l2', random_state=None, tol=0.0001, verbose=0)
====================
訓練集正確率: 0.8022
訓練集f1分數: 0.4489
訓練集auc分數: 0.6422
--------------------
測試集正確率: 0.7954
測試集f1分數: 0.4449
測試集auc分數: 0.6396
====================

3.3.2 SVC linear

測試模型 & 模型引數如下：
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0, decision_function_shape='ovr', degree=3, 
    gamma='auto_deprecated', kernel='linear', max_iter=-1, probability=True, random_state=None,
    shrinking=True, tol=0.001, verbose=False)
====================
訓練集正確率: 0.7977
訓練集f1分數: 0.3910
訓練集auc分數: 0.6181
--------------------
測試集正確率: 0.7884
測試集f1分數: 0.3837
測試集auc分數: 0.6146
====================

3.3.2 SVC ploy

測試模型 & 模型引數如下：
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
  kernel='poly', max_iter=-1, probability=True, random_state=None,
  shrinking=True, tol=0.001, verbose=False)
====================
訓練集正確率: 0.8206
訓練集f1分數: 0.4373
訓練集auc分數: 0.6398
--------------------
測試集正確率: 0.7526
測試集f1分數: 0.2067
測試集auc分數: 0.5482
====================

3.3.2 rf

測試模型 & 模型引數如下：
RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini', max_depth=None, max_features='auto', 
                       max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, min_samples_leaf=1, 
                       min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=None,
                       oob_score=False, random_state=None, verbose=0, warm_start=False)
====================
訓練集正確率: 0.9814
訓練集f1分數: 0.9609
訓練集auc分數: 0.9624
--------------------
測試集正確率: 0.7730
測試集f1分數: 0.3721
測試集auc分數: 0.6060
====================

機器學習 scikit-learn3 模型實踐 - 支援向量機和決策樹

支援向量機和決策樹 - 目錄 1 簡介 1.1 程式碼下載 1.2 程式碼使用方法 3 核心程式碼說明 3.1 模型配置 3.2 模型訓練 3.3 輸出結果 3.3.1 Linea

（預測貸款使用者是否會逾期）支援向量機和決策樹的模型建立

（預測貸款使用者是否會逾期）支援向量機和決策樹的模型建立資料是金融資料，我們要做的是預測貸款使用者是否會逾期，表格中，status是標籤：0表示未逾期，1表示逾期。【今天的任務】構建支援向量機和決策樹模型進行預測（在構建部分資料需要進行缺失值處理和資料型別轉換，如果不能處理，可以直接暴

機器學習 scikit-learn4 模型實踐 - xgboost 和 lightgbm

xgboost 和 lightgbm - 目錄 1 簡介 1.1 程式碼下載 1.2 程式碼使用方法 3 核心程式碼說明 3.1 模型配置 3.2 模型訓練 3.3 輸出結果 3.

機器學習 scikit-learn2 模型實踐 - 邏輯迴歸

邏輯迴歸 - 目錄 1 簡介 1.1 程式碼下載 1.2 程式碼使用方法 3 核心程式碼說明 3.1 模型配置 3.2 模型訓練 3.3 輸出結果 1 簡介 1.1 程式

機器學習實戰第六章支援向量機照葫蘆畫瓢演算法實踐

支援向量機簡要介紹一些概念： 1.分隔超平面：在二維中直觀來說就是將資料集分隔開來的直線，三維中則是一個平面。觸類旁通。 2.超平面：分類的決策邊界，分佈在超平面一側的所有資料都屬於某個類別，另一側屬於另一個。 3.支援向量：離分隔超平面最近的那些

機器學習(四)：通俗理解支援向量機SVM及程式碼實踐

[上一篇文章](https://mp.weixin.qq.com/s/cEbGM0_Lrt8elfubxSF9jg)我們介紹了使用邏輯迴歸來處理分類問題，本文我們講一個更強大的分類模型。本文依舊側重程式碼實踐，你會發現我們解決問題的手段越來越豐富，問題處理起來越來越簡單。支援向量機(Support V

機器學習實戰（五）支援向量機SVM（Support Vector Machine）

目錄 0. 前言 1. 尋找最大間隔 2. 拉格朗日乘子法和KKT條件 3. 鬆弛變數 4. 帶鬆弛變數的拉格朗日乘子法和KKT條件 5. 序列最小優化SMO（Sequential Minimal Optimiz

機器學習筆記（參考吳恩達機器學習視訊筆記）11_支援向量機

11 支援向量機 11.1 支援向量機的優化目標從邏輯迴歸開始展示我們如何一點一點修改來得到本質上的支援向量機。如圖，一個y=1的樣本，希望趨近於1，意味著當趨近於1時，應當遠大於0。一個y=0的樣本，希望趨近於0，意味著當趨近於0時，應當遠小於0。

機器學習技法筆記01-----SVM支援向量機

寫的文章發給老師看得到回覆裡面有：去看看機器學習基礎知識～最近，嗯，來一波機器學習基礎～特徵轉換（Feature Transforms）的三個方向： SVM：解決如何選擇特徵轉換以及複雜度的問題 A

機器學習入門（十）支援向量機

--------韋訪 20181114 1、概述繼續學習，支援向量機在傳統的機器學習的地位還是很高的，不過，現在風頭已經被神經網路蓋過了，但是，還是得學習的。 2、概念先來看一下，為什麼需要支援向量機？如上圖所示，這是一個二分類問題，有三條直線，都能將紅

【機器學習基礎】軟間隔支援向量機

引言在上一小節中，我們介紹了核支援向量機。於是，不管是簡單的問題還是複雜的問題，我們都可以做得到。然而，像高斯核的方法太複雜了，可能造成過擬合的問題。導致過擬合的現象的原因有可能是你選擇特徵轉換太強大了，導致無法用最大間隔的方法控制模型的複雜度，還有一個

機器學習實戰（六）——支援向量機

第六章支援向量機 6.1 什麼是支援向量機支援向量機(Support Vector Machines)是目前被認為最好的現成的演算法之一在很久以前的情人節，大俠要去救他的愛人，但魔鬼和他玩了一個遊戲。魔鬼在桌子上似乎有規律放了兩種顏

各種機器學習方法（線性迴歸、支援向量機、決策樹、樸素貝葉斯、KNN演算法、邏輯迴歸）實現手寫數字識別並用準確率、召回率、F1進行評估

本文轉自：http://blog.csdn.net/net_wolf_007/article/details/51794254 前面兩章對資料進行了簡單的特徵提取及線性迴歸分析。識別率已經達到了85%，完成了數字識別的第一步：資料探測。這一章要做的就各

公開課機器學習筆記（13）支援向量機三核函式

2.2、核函式Kernel 2.2.1、特徵空間的隱式對映：核函式咱們首先給出核函式的來頭：在上文中，我們已經瞭解到了SVM處理線性可分的情況，而對於非線性的情況，SVM 的處理方法是選擇一個核函式 κ(⋅,⋅) ，通過將資料對映到高維空間，來解決在原始空

機器學習演算法及程式碼實現--支援向量機

機器學習演算法及程式碼實現–支援向量機 1、支援向量機 SVM希望通過N-1維的分隔超平面線性分開N維的資料，距離分隔超平面最近的點被叫做支援向量，我們利用SMO（SVM實現方法之一）最大化支援向量到分隔面的距離，這樣當新樣本點進來時，其被分類正確的概率

Spark機器學習系列之13：支援向量機SVM

C−SVM基本公式推導過程下面摘抄一小部分內容（不考慮推導細節的話，基本上能理解C-SVM方法推導的整個流程）. 我們用一個超平面劃分圖中對圖中的兩類資料進行分類，超平面寫成f(x)=wTx+b=0,線上性可分的情況下，我們能找到一

機器學習練習（六）—— 支援向量機

這篇文章是一系列 Andrew Ng 在 Coursera 上的機器學習課程的練習的一部分。這篇文章的原始程式碼，練習文字，資料檔案可從這裡獲得。我們現在已經到了課程內容和本系列部落格文章的最後階段。本

用Python開始機器學習（8：SVM支援向量機）

SVM支援向量機是建立於統計學習理論上的一種分類演算法，適合與處理具備高維特徵的資料集。SVM演算法的數學原理相對比較複雜，好在由於SVM演算法的研究與應用如此火爆，CSDN部落格裡也有大量的好文章對此進行分析，下面給出幾個本人認為講解的相當不錯的：支援向量機通俗導論（理解S

周志華《機器學習》第 6 章支援向量機

本文是周志華《機器學習》系列文章之一，主要介紹支援向量機函式及核函式等概念。第 6 章支援向量機 6.1 間隔與支援向量給定訓練樣本集分類學習最基本的想法就是基於訓練集 D 在樣本空間中找到一個劃分超平面，將不同類別的樣本分開。在樣本

機器學習二十二：支援向量機迴歸SVR

AI菌在前四篇裡面我們講到了SVM的線性分類和非線性分類（核函式），以及在分類時用到的SMO演算

機器學習 scikit-learn3 模型實踐 - 支援向量機和決策樹

支援向量機和決策樹 - 目錄

1 簡介

1.1 程式碼下載

1.2 程式碼使用方法

3 核心程式碼說明

3.1 模型配置

3.2 模型訓練

3.3 輸出結果

3.3.1 LinearSVC

3.3.2 SVC linear

3.3.2 SVC ploy

3.3.2 rf

相關推薦