學習SVM中碰到的函式

阿新 • • 發佈：2018-11-07

學習svm的時候，看了幾個大牛的程式碼，程式碼中調了幾個函式庫，在此記錄下來，方便以後的學習。

一、sklearn.svm.SVC

sklearn.svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, 
                probability=False,tol=0.001, cache_size=200, class_weight=None, verbose=False, 
                max_iter=-1, decision_function_shape= 
None,random_state=None)

引數：

C：懲罰引數，預設值是1.0
C越大，表示對誤分類的懲罰變大，演算法更想將訓練集全分對，這樣對訓練集測試時準確率很高，可能會過擬合，泛化能力弱；C越小，表示對誤分類的懲罰變小，允許容錯，可能會欠擬合，泛化能力強。
kernel：核函式，預設是rbf
‘linear’：線性
‘poly’：多項式
‘sigmoid’：
‘precomputed’：
‘rbf’：像正太分佈，但是和正太分佈沒什麼關係
gamma ： ‘rbf’、‘poly’ 和‘sigmoid’的核函式引數。預設是’auto’，則會選擇1/n_features。

coef0 ：核函式的常數項。對於‘poly’和 ‘sigmoid’有用。
shrinking ：是否採用shrinking heuristic方法，預設為true
probability ：是否採用概率估計？.預設為False
tol ：停止訓練的誤差值大小，預設為1e-3
cache_size ：核函式cache快取大小，預設為200
class_weight ：類別的權重，字典形式傳遞。設定第幾類的引數C為weight*C(C-SVC中的C)
verbose ：允許冗餘輸出？
max_iter ：最大迭代次數。-1為無限制。
decision_function_shape ：‘ovo’, ‘ovr’ or None, default=None3

random_state ：資料洗牌時的種子值，int值

上面的值中用的最多的有：C、kernel、degree、gramma、coef0。

二、sklearn: predict和predict_proba

這裡用一段程式碼展示效果：

from sklearn.linear_model import LogisticRegression
import numpy as np
x_train = np.array([[1,2,3],
                    [1,3,4],
                    [2,1,2],
                    [4,5,6],
                    [3,5,3],
                    [1,7,2]])
y_train = np.array([0, 0, 0, 1, 1, 1])
x_test = np.array([[2,2,2],
                   [3,2,6],
                   [1,7,4]])
clf = LogisticRegression()
clf.fit(x_train, y_train)
# 返回預測標籤
clf.predict(x_test)
array([1, 0, 1])
# 返回預測屬於某標籤的概率
clf.predict_proba(x_test)
array([[ 0.43348191, 0.56651809],
       [ 0.84401838, 0.15598162],
       [ 0.13147498, 0.86852502]])

預測[2,2,2]的標籤是0的概率為0.43348191，1的概率為0.56651809

預測[3,2,6]的標籤是0的概率為0.84401838，1的概率為0.15598162

預測[1,7,4]的標籤是0的概率為0.13147498，1的概率為0.86852502

probas = clf.predict(x_test)

predict_proba返回的是一個n行k列的陣列(probas)，n是資料集的資料量，k是標籤數。

probas[: , j]打印出來的是每個資料對標籤j預測出的概率

三、資料視覺化seaborn

sns.set(context="notebook", style="dark", palette=sns.diverging_palette(240, 10, n=2))

seaborn中有五種可供選擇的主題：

1.darkgrid（灰色網格）
2.whitegrid（白色網格）
3.dark（黑色）
4.white（白色）
5.ticks（十字叉）

sns.diverging_palette的意義：

sns.palplot(sns.diverging_palette(220, 20, n=7))

在這裡插入圖片描述

sns.palplot(sns.diverging_palette(145, 280, s=85, l=25, n=7))

在這裡插入圖片描述
sep引數控制面板中間區域的兩個漸變的寬度：

sns.palplot(sns.diverging_palette(10, 220, sep=80, n=7))

在這裡插入圖片描述
也可以用中間的色調來選擇調色，而不是用亮度：

sns.palplot(sns.diverging_palette(255, 133, l=60, n=7, center="dark"))

在這裡插入圖片描述

四、Pandas：DataFrame物件的基礎操作

import pandas as pd
import numpy as np

df = pd.DataFrame([1, 2, 3, 4, 5], columns=['cols'], index=['a','b','c','d','e'])
print df

df2 = pd.DataFrame([[1, 2, 3],[4, 5, 6]], columns=['col1','col2','col3'], index=['a','b'])
print df2

   col1  col2  col3
a     1     2     3
b     4     5     6

df3 = pd.DataFrame(np.array([[1,2],[3,4]]), columns=['col1','col2'], index=['a','b'])
print df3

   col1  col2
a     1     2
b     3     4

df4 = pd.DataFrame({'col1':[1,3],'col2':[2,4]},index=['a','b'])
print df4

   col1  col2
a     1     2
b     3     4

建立DataFrame物件的資料可以為列表，陣列和字典，列名和索引為列表物件。
更多操作詳見：https://blog.csdn.net/u014281392/article/details/75331570

五、sklearn.svm.LinearSVC

from sklearn import svm
svc = svm.LinearSVC(C=1, loss='hinge', max_iter=1000)
# 接下來與SVM函式一樣正常訓練即可
svc.fit(data[['X1', 'X2']], data['y'])
svc.score(data[['X1', 'X2']], data['y'])

與引數kernel ='linear’的SVC類似，但是以liblinear而不是libsvm的形式實現，因此它在懲罰和損失函式的選擇方面具有更大的靈活性，並且應該更好地擴充套件到大量樣本。

此類支援密集和稀疏輸入，並且多類支援根據one-vs-the-rest方案處理。

Sklearn.svm.LinearSVC(penalty=’l2’, loss=’squared_hinge’, dual=True, tol=0.0001, C=1.0, multi_class=’ovr’,fit_intercept=True, intercept_scaling=1, class_weight=None, verbose=0, random_state=None, max_iter=1000)

penalty : string, ‘l1’ or ‘l2’ (default=’l2’)
指定懲罰中使用的規範。 'l2’懲罰是SVC中使用的標準。 'l1’導致稀疏的coef_向量。
loss : string, ‘hinge’ or ‘squared_hinge’ (default=’squared_hinge’)
指定損失函式。 “hinge”是標準的SVM損失（例如由SVC類使用），而“squared_hinge”是hinge損失的平方。
dual : bool, (default=True)
選擇演算法以解決雙優化或原始優化問題。當n_samples> n_features時，首選dual = False。
tol : float, optional (default=1e-4)
公差停止標準
C : float, optional (default=1.0)
錯誤項的懲罰引數
multi_class : string, ‘ovr’ or ‘crammer_singer’ (default=’ovr’)
如果y包含兩個以上的類，則確定多類策略。 “ovr”訓練n_classes one-vs-rest分類器，而“crammer_singer”優化所有類的聯合目標。雖然crammer_singer在理論上是有趣的，因為它是一致的，但它在實踐中很少使用，因為它很少能夠提高準確性並且計算成本更高。如果選擇“crammer_singer”，則將忽略選項loss，penalty和dual。
fit_intercept : boolean, optional (default=True)
是否計算此模型的截距。如果設定為false，則不會在計算中使用截距（即，預期資料已經居中）。
intercept_scaling : float, optional (default=1)
當self.fit_intercept為True時，例項向量x變為[x，self.intercept_scaling]，即具有等於intercept_scaling的常量值的“合成”特徵被附加到例項向量。截距變為intercept_scaling *合成特徵權重注意！合成特徵權重與所有其他特徵一樣經受l1 / l2正則化。為了減小正則化對合成特徵權重（並因此對截距）的影響，必須增加intercept_scaling。
class_weight : {dict, ‘balanced’}, optional
將類i的引數C設定為SVC的class_weight [i] * C. 如果沒有給出，所有課程都應該有一個重量。 “平衡”模式使用y的值自動調整與輸入資料中的類頻率成反比的權重，如n_samples /（n_classes * np.bincount（y））
verbose : int, (default=0)
啟用詳細輸出。請注意，此設定利用liblinear中的每程序執行時設定，如果啟用，可能無法在多執行緒上下文中正常工作。
random_state : int, RandomState instance or None, optional (default=None)
在隨機資料混洗時使用的偽隨機數生成器的種子。如果是int，則random_state是隨機數生成器使用的種子; 如果是RandomState例項，則random_state是隨機數生成器; 如果為None，則隨機數生成器是np.random使用的RandomState例項。
max_iter : int, (default=1000)
要執行的最大迭代次數。

學習SVM中碰到的函式

學習svm的時候，看了幾個大牛的程式碼，程式碼中調了幾個函式庫，在此記錄下來，方便以後的學習。一、sklearn.svm.SVC sklearn.svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shri

python的sklearn機器學習SVM中的NuSVC執行報錯：ValueError: b'specified nu is infeasible'

早上在使用NuSVC進行模型訓練的時候，報錯如下 Reloaded modules: __mp_main__ Traceback (most recent call last): File "<ipython-input-2-c95a09e8e532>", line 1

CS231n——機器學習演算法——線性分類（中：SVM及其損失函式）

損失函式 Loss function 在線性分類（上）筆記中，定義了從影象畫素值到所屬類別的評分函式（score function），該函式的引數是權重矩陣W。在函式中，資料 (

學習C++中的有用函式

1: int __builtin_popcount(int x) long long __builtin_popcountll(long long x) 求數字x二進位制中的1的個數實測： #include<cstdio> int main() { long lon

小白python學習——字串中容易忽略的函式

1.字串是不可直接改變的,列表可以（一開始自己的坑）例： a="abcde" a=a[0:0]+"2"+a[1:] print(a) 輸出：a2cde 2.用replace函式 a="abcde" a=a.replace(a[0],"2") print(a)

機器學習sklearn中的train_test_split()函式

使用train_test_split函式可以將原始資料集按照一定比例劃分訓練集和測試集對模型進行訓練一、舉例 import numpy as np #科學計算庫 from sklearn.model_selection import train_test_split #train_test_s

Jmeter效能測試工具學習（Jmeter中的函式和BeanShell）

函式 loadrunner中的函式 Jmeter中的函式 1）函式格式 ${__functionName(var1,var2,var3)} 2）如果函式沒有引數，那可以沒有括號例如 ${__threadNum} 例子： BeanShell

學習element中，覺得得多封裝一下一些函式，比如form驗證

學習vue中，用element作為ui框架，發現很多函式都是非同步，或者是巢狀型別，為了使程式碼更簡潔些，我以form表單的validate作例子原先函式是這樣 this.$refs[formName].validate((valid) => { //這裡面寫

SVM支援向量機系列理論（五）SVM中幾種核函式的對比

核函式可以代表輸入特徵之間特殊的相似性。 5.1 線性核形式： K(x,x′)=xTx′ K ( x ,

《Oracle PL/SQL開發指南》學習筆記30——原始碼除錯——錯誤管理（第四部分，utl_call_stack包中的函式）

utl_call_stack包中的函式整理如下： Package Function Description backtrace_depth Returns the number of backtrace items in

Python中的函式---基礎學習筆記（七）

一、函式的定義與呼叫 1、函式的定義格式： def函式名(): 程式碼 2、呼叫函式：定義了函式之後，就相當於有了一個具有某更能的程式碼，想要讓這些程式碼能夠執行，需要呼叫它呼叫函式很簡單的，通過

續（利用tensorflow實現簡單的卷積神經網路-對程式碼中相關函式介紹）——遷移學習小記（三）

上篇文章對cnn進行了一些介紹，附了完整小例子程式碼，介紹了一部分函式概念，但是對我這樣的新手來說，程式碼中涉及的部分函式還是無法一下子全部理解。於是在本文中將對程式碼中使用的函式繼續進行一一介紹。具體程式碼見上一篇（二）一、 #定義輸入的placehoder，x是特徵

大資料學習之Scala中main函式的分析以及基本規則（2）

一、main函式的分析首先來看我們在上一節最後看到的這個程式，我們先來簡單的分析一下，有助於後面的學習 object HelloScala { def main(args: Array[String]): Unit = { printl

SVM中的核函式

1 核函式本質核函式的本質可以概括為如下三點： 1）實際應用中，常常遇到線性不可分的情況。針對這種情況，常用做法是把樣例特徵對映到高維空間中，轉化為線性可分問題。 2）將樣例特徵對映到高維空間，可能會遇到維度過高的問題。 3）針對可能的維災難，可以利用核函式。核函式

C++中建構函式預設引數學習筆記

C++中函式在定義時可以預先宣告預設的形參值，呼叫時如果給出的實參則用實參初始化形參；如果沒有給出實參，則採用預先宣告的預設形參值。在Java不能在構造方法中使用預設的引數，不知道C語言中能否使用，C++好像是很獨特的一種使用方式以下是一個簡單的例項： #inclu

【深度學習CV】SVM, Softmax損失函式

Deep learning在計算機視覺方面具有廣泛的應用，包括影象分類、目標識別、語義分隔、生成影象描述等各個方面。本系列部落格將分享自己在這些方面的學習和認識，如有問題，歡迎交流。在使用卷積神經網路進行分類任務時，往往使用以下幾類損失函式：平

spark中flatMap函式用法--spark學習（基礎）

說明在spark中map函式和flatMap函式是兩個比較常用的函式。其中 map：對集合中每個元素進行操作。 flatMap：對集合中每個元素進行操作然後再扁平化。理解扁平化可以舉個簡單例子 val arr=sc.parallelize(Ar

SVM中為何需要核函式

生存？還是毀滅？——哈姆雷特可分？還是不可分？——支援向量機之前一直在討論的線性分類器,器如其名（汗，這是什麼說法啊），只能對線性可分的樣本做處理。如果提供的樣本線性不可分，結果很簡單，線性分類器的求解程式會無限迴圈，永遠也解不出來。這必然使得它的適用範圍大大縮小，而它的很多優點我們實在不原意放棄

學習SVM（四）理解SVM中的支援向量（Support Vector）

我們在開始接觸SVM時肯定聽到過類似這樣的話，決定決策邊界的資料叫做支援向量，它決定了margin到底是多少，而max margin更遠的點，其實有沒有無所謂。然後一般會配一張圖說明一下哪些是支援向量（Support Vector），這個圖在之前的學習S

angularjs學習之五（angularjs中一般函式引數的傳遞）

1.模型引數直接使用變數名，不要加引號 <!doctype html> <html ng-app="passAter"> <head> <meta charset="utf-8"/> </head>

學習SVM中碰到的函式

一、sklearn.svm.SVC

引數：

二、sklearn: predict和predict_proba

predict_proba返回的是一個n行k列的陣列(probas)，n是資料集的資料量，k是標籤數。

probas[: , j]打印出來的是每個資料對標籤j預測出的概率

三、資料視覺化seaborn

seaborn中有五種可供選擇的主題：

sns.diverging_palette的意義：

四、Pandas：DataFrame物件的基礎操作

五、sklearn.svm.LinearSVC

相關推薦