機器學習：SVM（scikit-learn 中的 RBF、RBF 中的超參數 γ）

阿新 • • 發佈：2018-08-13

import colors 機器 class 核函數 RoCE caf 情況方差

一、高斯核函數、高斯函數

μ：期望值，均值，樣本平均數；（決定告訴函數中心軸的位置：x = μ）
σ²：方差；（度量隨機樣本和平均值之間的偏離程度：，為總體方差，為變量，為總體均值，為總體例數）

實際工作中，總體均數難以得到時，應用樣本統計量代替總體參數，經校正後，樣本方差計算公式：S^2= ∑(X- ) ^2 / (n-1)，S^2為樣本方差，X為變量，為樣本均值，n為樣本例數。

σ：標準差；（反應樣本數據分布的情況：σ 越小高斯分布越窄，樣本分布越集中；σ 越大高斯分布越寬，樣本分布越分散）
γ = 1 / (2σ²)：γ 越大高斯分布越窄，樣本分布越集中；γ 越小高斯分布越寬，樣本分布越密集；

二、scikit-learn 中的 RBF 核

　1）格式

from sklearn.svm import SVC

svc = SVC(kernel=‘rbf‘, gamma=1.0)

# 直接設定參數 γ = 1.0；

　2）模擬數據集、導入繪圖函數、設計管道

此處不做考察泛化能力，只查看對訓練數據集的分類的決策邊界，不需要進行 train_test_split；

模擬數據集

import numpy as np
import matplotlib.pyplot as plt

from sklearn import datasets

X, y = datasets.make_moons(noise=0.15, random_state=666)

plt.scatter(X[y 
==0, 0], X[y==0, 1])
plt.scatter(X[y==1, 0], X[y==1, 1])
plt.show()

技術分享圖片

導入繪圖函數

def plot_decision_boundary(model, axis):
    
    x0, x1 = np.meshgrid(
        np.linspace(axis[0], axis[1], int((axis[1]-axis[0])*100)).reshape(-1,1),
        np.linspace(axis[2], axis[3], int((axis[3]-axis[2])*100)).reshape(-1,1)
    )
    X_new  
= np.c_[x0.ravel(), x1.ravel()]
    
    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)
    
    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap([‘#EF9A9A‘,‘#FFF59D‘,‘#90CAF9‘])
    
    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)

設計管道

from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline

def RBFKernelSVC(gamma=1.0):
    return Pipeline([
        (‘std_scaler‘, StandardScaler()),
        (‘svc‘, SVC(kernel=‘rbf‘, gamma=gamma))
    ])

　3）調整參數 γ，得到不同的決策邊界

γ == 0.1

svc_gamma_01 = RBFKernelSVC(gamma=0.1)
svc_gamma_01.fit(X, y)

plot_decision_boundary(svc_gamma_01, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(X[y==0, 0], X[y==0, 1])
plt.scatter(X[y==1, 0], X[y==1, 1])
plt.show()

技術分享圖片

γ == 0.5

svc_gamma_05 = RBFKernelSVC(gamma=0.5)
svc_gamma_05.fit(X, y)

plot_decision_boundary(svc_gamma_05, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(X[y==0, 0], X[y==0, 1])
plt.scatter(X[y==1, 0], X[y==1, 1])
plt.show()

技術分享圖片

γ == 1

svc_gamma_1 = RBFKernelSVC(gamma=1.0)
svc_gamma_1.fit(X, y)

plot_decision_boundary(svc_gamma_1, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(X[y==0, 0], X[y==0, 1])
plt.scatter(X[y==1, 0], X[y==1, 1])
plt.show()

技術分享圖片

γ == 10

svc_gamma_10 = RBFKernelSVC(gamma=10)
svc_gamma_10.fit(X, y)

plot_decision_boundary(svc_gamma_10, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(X[y==0, 0], X[y==0, 1])
plt.scatter(X[y==1, 0], X[y==1, 1])
plt.show()

技術分享圖片

γ == 100

svc_gamma_100 = RBFKernelSVC(gamma=100)
svc_gamma_100.fit(X, y)

plot_decision_boundary(svc_gamma_100, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(X[y==0, 0], X[y==0, 1])
plt.scatter(X[y==1, 0], X[y==1, 1])
plt.show()

技術分享圖片

　4）分析

隨著參數 γ 從小到大變化，模型經歷：欠擬合——優——欠擬合；

γ == 100 時：

現象：每一個藍色的樣本周圍都形成了一個“鐘形”的圖案，藍色的樣本點是“鐘形”圖案的頂部；
原因：γ 的取值過大，樣本分布形成的“鐘形”圖案比較窄，模型過擬合；
決策邊界幾何意義：只有在“鐘形”圖案內分布的樣本，才被判定為藍色類型；否則都判定為黃山類型；

γ == 10 時，γ 值減小，樣本分布規律的“鐘形”圖案變寬，不同樣本的“鐘形”圖案區域交叉一起，形成藍色類型的樣本的分布區域；

超參數 γ 值越小模型復雜度越低，γ 值越大模型復雜度越高；

機器學習：SVM（scikit-learn 中的 RBF、RBF 中的超參數 γ）

import colors 機器 class 核函數 RoCE caf 情況方差一、高斯核函數、高斯函數 μ：期望值，均值，樣本平均數；（決定告訴函數中心軸的位置：x = μ） σ2：方差；（度量隨機樣本和平均值之間的偏離程度：，為總體方差，為變量，為總體

機器學習：SVM（一）——線性可分支援向量機原理與公式推導

原理 SVM基本模型是定義在特徵空間上的二分類線性分類器（可推廣為多分類），學習策略為間隔最大化，可形式化為一個求解凸二次規劃問題，也等價於正則化的合頁損失函式的最小化問題。求解演算法為序列最小最優化演算法（SMO）當資料集線性可分時，通過硬間隔最大化，學習一個線性分類器；資料集近似線性可分時，即存在一小

機器學習：PCA（高維數據映射為低維數據封裝&調用）

pca 圖片數據的區別機器學習 png 復數 img 空間 # 每個主成分向量的長度與數據集的特征數一樣 # 主成分分析法的本質：將數據集從一個坐標系轉換到另一個坐標系，原坐標系有 n 個維度（n 中特征），則轉換的新坐標系也有 n 個維度，每個主成分表示一個維度，只

機器學習：PCA（實例：MNIST數據集）

還需要 bsp ase rom clas fit 疑問現象 arr 一、數據獲取數據 import numpy as np from sklearn.datasets import fetch_mldata mnist = fetch_mldata("MNIST

吳恩達老師機器學習筆記SVM（二）

今天的部分是利用高斯核函式對分佈稍微複雜一點的資料進行分類這裡的高斯核函式是構建新的特徵，該特徵是關於到其餘所有樣點的歐式距離。下面放出程式碼： load('ex6data2.mat'); [m n]=size(X); f=zeros(m,m); a=0.005 for i=

吳恩達老師機器學習筆記SVM（一）

時隔好久沒有再拾起機器學習了，今日抽空接著學今天是從最簡單的二維資料分類開始學習SVM~ （上圖為原始資料） SVM的代價函式這裡套用以前logistic迴歸的模板改一下下。。 load('ex6data1.mat'); theta=rand(3,1); [

Python機器學習Numpy, Scipy, Pandas, Scikit-learn, Matplotlib, Keras, NN速查手冊

Python機器學習Numpy, Scipy, Pandas, Scikit-learn, Matplotlib, Keras, NN速查手冊 Numpy SciPy Scikit-Learn Pandas Keras Matp

OpenCV機器學習：SVM分類器實現MNIST手寫數字識別

0. 開發環境最近機器學習隨著AI人工智慧的興起越來越火，博主想找一些ML的庫來練手。突然想起之前在看Opencv的doc時發現有ML的component，於是心血來潮就開始寫程式碼試試。話不多說，直接進正題。以下我的開發環境配置： -Windows7

機器學習：準確率（Precision）、召回率（Recall）、F值（F-Measure）、ROC曲線、PR曲線

介紹：準確率（Precision）、召回率（Recall）、F值（F-Measure）是資料探勘、機器學習和推薦系統中的評測指標。下圖是不同機器學習演算法的評價指標：本文的物件是二元分類器！在介紹評價指標必須瞭解“混淆矩陣” 混淆矩陣 True Posi

《機器學習實戰》（Machine Learning in Action) 一書中的錯誤之處（內容、程式碼）

最近在學機器學習，發現此書有錯誤的地方，寫成部落格，方便以後查詢。（慢慢更新中……） 1.中文書第22頁（英文版第26頁）中有一行程式碼： classLabelVector.append(

機器學習：SVM(Support Vector Machine)支援向量機簡介

SVM(Support Vector Machine)：支援向量機有監督學習模型應用：模式識別、分類以及迴歸分析 SVM的主要思想：它是針對線性可分情況進行分析，對於線性不可分的情況

斯坦福大學公開課機器學習：machine learning system design | trading off precision and recall（F score公式的提出：學習算法中如何平衡（取舍）查準率和召回率的數值）

ron 需要 color 不可關系 machine 同時機器學習 pos 一般來說，召回率和查準率的關系如下：1、如果需要很高的置信度的話，查準率會很高，相應的召回率很低；2、如果需要避免假陰性的話，召回率會很高，查準率會很低。下圖右邊顯示的是召回率和查準率在一個學習算

機器學習實戰筆記（一）- 使用SciKit-Learn做回歸分析

err 皮爾遜練習 using flow 相關一個數 ocean 針對一、簡介這次學習的書籍主要是Hands-on Machine Learning with Scikit-Learn and TensorFlow（豆瓣：https://book.douban.co

機器學習實戰系列（五）：SVM支援向量機

課程的所有資料和程式碼在我的Github：Machine learning in Action，目前剛開始做，有不對的歡迎指正，也歡迎大家star。除了版本差異，程式碼裡的部分函式以及程式碼正規化也和原書不一樣（因為作者的程式碼實在讓人看的彆扭，我改過後看起來舒服多了）

機器學習：Scikit-learn與特徵工程

“資料決定了機器學習的上限，而演算法只是儘可能逼近這個上限”，這句話很好的闡述了資料在機器學習中的重要性。大部分直接拿過來的資料都是特徵不明顯的、沒有經過處理的或者說是存在很多無用的資料，那麼需要進行一些特徵處理，特徵的縮放等等，滿足訓練資料的要求。我們將初次接觸到Sciki

Python/scikit-learn機器學習庫(SVM支援向量機)

SVM SVM用於分類、迴歸、異常檢測。優點: 高維空間有效。維度小於樣本數時依然有效。樣本少時表現不好。分類多分類: SVC、NuSVC、LinearSVC。SVMs決策函式依賴於訓練資料中一部分，這些向量稱為支援向量。 NuSVC

機器學習回顧篇（11）：支援向量機（SVM）

1. 引言¶ SVM，Support Vector Machine，也就是我們中文名的支援向量機，我相信，只要是與機器學習有過照面的童鞋或多或少都聽說過這個名字。作為機器學習家族中的老牌成員，其經典自不必說。從原理和特性上講，SVM

Python機器學習筆記：SVM（1）——SVM概述

前言　　整理SVM（support vector machine）的筆記是一個非常麻煩的事情，一方面這個東西本來就不好理解，要深入學習需要花費大量的時間和精力，另一方面我本身也是個初學者，整理起來難免思路混亂。所以我對SVM的整理會分為四篇（暫定為四篇）學習，不足之處，請多多指導。　　四篇分別為： Pyt

Python機器學習筆記：SVM（2）——SVM核函式

　　上一節我學習了完整的SVM過程，下面繼續對核函式進行詳細學習，具體的參考連結都在上一篇文章中，SVM四篇筆記連結為： Python機器學習筆記：SVM（1）——SVM概述 Python機器學習筆記：SVM（2）——SVM核函式 Python機器學習筆記：SVM（3）——證明SVM Python機器學習筆記

Python機器學習筆記：SVM（3）——證明SVM

　　說實話，凡是涉及到要證明的東西（理論），一般都不好惹。絕大多數時候，看懂一個東西不難，但證明一個東西則需要點數學功底，進一步，證明一個東西也不是特別難，難的是從零開始發明這個東西的時候，則顯得艱難（因為任何時代，大部分人的研究所得都不過是基於前人的研究成果，前人所做的是開創性的工作，而這往往是最艱難最有價

機器學習：SVM（scikit-learn 中的 RBF、RBF 中的超參數 γ）

一、高斯核函數、高斯函數

二、scikit-learn 中的 RBF 核

1）格式

2）模擬數據集、導入繪圖函數、設計管道

模擬數據集

導入繪圖函數

設計管道

3）調整參數 γ，得到不同的決策邊界

γ == 0.5

γ == 1

γ == 10

γ == 100

4）分析

相關推薦

　1）格式

　2）模擬數據集、導入繪圖函數、設計管道

　3）調整參數 γ，得到不同的決策邊界

　4）分析