機器學習實戰python例項（2）SVM優化

阿新 • • 發佈：2019-01-09

簡易版的SVM中，SMO演算法中α的選擇採取遍歷且隨機的方式，見http://blog.csdn.net/xiaonannanxn/article/details/52372085
優化版中，我們採取啟發式方式選擇，即αj選擇max|Ei-Ej|，這樣就可以讓每次更新的步長更大，減少我們的迭代次數，更新上次的SVM.py

# coding:utf-8
from numpy import *
import matplotlib.pyplot as plt

def loadDataSet(filename):
    dataMat = []
    labelMat = []
    fr = open(filename)
    for 
 line in fr.readlines():
        lineArr = line.strip().split('\t')
        dataMat.append([float(lineArr[0]), float(lineArr[1])])
        labelMat.append(float(lineArr[2]))
    return dataMat, labelMat


def selectJrand(i, m):
    j = i
    while j == i:
        j = int(random.uniform(0, m))
    return 
 j


def clipAlpha(aj, H, L):
    if aj > H:
        aj = H
    if aj < L:
        aj = L
    return aj


def show(dataArr, labelArr, alphas, b):
    for i in xrange(len(labelArr)):
        if labelArr[i] == -1:
            plt.plot(dataArr[i][0], dataArr[i][1], 'or')
        elif labelArr[i] == 1 
:
            plt.plot(dataArr[i][0], dataArr[i][1], 'Dg')
    # print alphas.shape, mat(labelArr).shape, multiply(alphas, mat(labelArr)).shape
    c = sum(multiply(multiply(alphas.T, mat(labelArr)), mat(dataArr).T), axis=1)
    minY = min(m[1] for m in dataArr)
    maxY = max(m[1] for m in dataArr)
    plt.plot([sum((- b - c[1] * minY) / c[0]), sum((- b - c[1] * maxY) / c[0])], [minY, maxY])
    plt.plot([sum((- b + 1 - c[1] * minY) / c[0]), sum((- b + 1 - c[1] * maxY) / c[0])], [minY, maxY])
    plt.plot([sum((- b - 1 - c[1] * minY) / c[0]), sum((- b - 1 - c[1] * maxY) / c[0])], [minY, maxY])
    plt.show()


class optStruct:
    def __init__(self, dataMatIn, classLabels, C, toler):
        self.X = dataMatIn
        self.labelMat = classLabels
        self.C = C
        self.tol = toler
        self.m = shape(dataMatIn)[0]
        self.alphas = mat(zeros((self.m, 1)))
        self.b = 0
        self.eCache = mat(zeros((self.m, 2)))


def calcEk(oS, k):
    fXk = float(multiply(oS.alphas, oS.labelMat).T * (oS.X * oS.X[k, :].T)) + oS.b
    Ek = fXk - float(oS.labelMat[k])
    return Ek


def selectJ(i, oS, Ei):
    maxK = -1
    maxDeltaE = 0
    Ej = 0
    oS.eCache[i] = [1, Ei]
    validEcacheList = nonzero(oS.eCache[:, 0].A)[0]
    if len(validEcacheList) > 1:
        for k in validEcacheList:
            if k == i:
                continue
            Ek = calcEk(oS, k)
            deltaE = abs(Ei - Ek)
            if deltaE > maxDeltaE:
                maxK = k
                maxDeltaE = deltaE
                Ej = Ek
        return maxK, Ej
    else:
        j = selectJrand(i, oS.m)
        Ej = calcEk(oS, j)
    return j, Ej


def updateEk(oS, k):
    Ek = calcEk(oS, k)
    oS.eCache[k] = [1, Ek]


def innerL(i, oS):
    Ei = calcEk(oS, i)
    if ((oS.labelMat[i] * Ei < -oS.tol) and (oS.alphas[i] < oS.C))\
            or ((oS.labelMat[i] * Ei > oS.tol) and (oS.alphas[i] > 0)):
        j, Ej = selectJ(i, oS, Ei)
        alphaIold = oS.alphas[i].copy()
        alphaJold = oS.alphas[j].copy()
        if oS.labelMat[i] != oS.labelMat[j]:
            L = max(0, oS.alphas[j] - oS.alphas[i])
            H = min(oS.C, oS.C + oS.alphas[j] - oS.alphas[i])
        else:
            L = max(0, oS.alphas[j] + oS.alphas[i] - oS.C)
            H = min(oS.C, oS.alphas[j] + oS.alphas[i])
        if L == H:
            print "L == H"
            return 0
        eta = 2.0 * oS.X[i, :] * oS.X[j, :].T - oS.X[i, :] * oS.X[i, :].T - oS.X[j, :] * oS.X[j, :].T
        if eta >= 0:
            print "eta >= 0"
            return 0
        oS.alphas[j] -= oS.labelMat[j] * (Ei - Ej) / eta
        oS.alphas[j] = clipAlpha(oS.alphas[j], H, L)
        updateEk(oS, j)
        if abs(oS.alphas[j] - alphaJold) < 0.00001:
            print "j not moving enough"
            return 0
        oS.alphas[i] += oS.labelMat[j] * oS.labelMat[i] * (alphaJold - oS.alphas[j])
        updateEk(oS, i)
        b1 = oS.b - Ei - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.X[i, :] * oS.X[i, :].T \
                - oS.labelMat[j] * (oS.alphas[j] - alphaJold) * oS.X[i, :] * oS.X[j, :].T
        b2 = oS.b - Ej - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.X[i, :] * oS.X[j, :].T \
                - oS.labelMat[j] * (oS.alphas[j] - alphaJold) * oS.X[j, :] * oS.X[j, :].T
        if 0 < oS.alphas[i] < oS.C:
            oS.b = b1
        elif 0 < oS.alphas[j] < oS.C:
            oS.b = b2
        else:
            oS.b = (b1 + b2) / 2.0
        return 1
    else:
        return 0


def smoP(dataMatIn, classLabels, C, toler, maxIter, kTup=('lin', 0)):
    oS = optStruct(mat(dataMatIn), mat(classLabels).transpose(), C, toler)
    Iter = 0
    entireSet = True
    alphaPairsChanged = 0
    while Iter < maxIter and (alphaPairsChanged > 0 or entireSet):
        alphaPairsChanged = 0
        if entireSet:
            for i in xrange(oS.m):
                alphaPairsChanged += innerL(i, oS)
            print "fullSet, iter: %d i:%d, pairs changed %d" % (Iter, i, alphaPairsChanged)
            Iter += 1
        else:
            nonBoundIs = nonzero((oS.alphas.A > 0) * (oS.alphas.A < C))[0]
            for i in nonBoundIs:
                alphaPairsChanged += innerL(i, oS)
                print "non-bound, iter: %d i:%d, pairs changed %d" % (Iter, i, alphaPairsChanged)
            Iter += 1
        if entireSet:
            entireSet = False
        elif alphaPairsChanged == 0:
            entireSet = True
        print "iteration number: %d" % Iter
    return oS.b, oS.alphas

在main.py中測試

import SVM

dataArr, labelArr = SVM.loadDataSet('testSet.txt')
b, alphas = SVM.smoP(dataArr, labelArr, 0.6, 0.001, 40)
SVM.show(dataArr, labelArr, alphas, b)

測試結果這裡寫圖片描述

機器學習實戰python例項（2）SVM優化

簡易版的SVM中，SMO演算法中α的選擇採取遍歷且隨機的方式，見http://blog.csdn.net/xiaonannanxn/article/details/52372085 優化版中，我們採取啟發式方式選擇，即αj選擇max|Ei-Ej|，這樣就可以讓

《機器學習實戰》筆記（三）：樸素貝葉斯

4.1 基於貝葉斯決策理論的分類方法樸素貝葉斯是貝葉斯決策理論的一部分，貝葉斯決策理論的的核心思想，即選擇具有最高概率的決策。若p1(x,y)和p2(x,y)分別代表資料點(x,y)屬於類別1,2的概率，則判斷新資料點(x,y)屬於哪一類別的規則是： 4.3 使用條件概率來分類

《機器學習實戰》筆記（一）：K-近鄰演算法

一、K-近鄰演算法 1.1 k-近鄰演算法簡介簡單的說，K-近鄰演算法採用測量不同特徵值之間的距離的方法進行分類。 1.2 原理存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一資料與所屬分類的對應關係。輸入沒有標籤的新資料

機器學習實戰python例項

Machine-Learning-With-Python https://github.com/Thinkgamer/Machine-Learning-With-Python 此專案是我在學習《機器學習實戰》這本書時的程式碼記錄情況，用python實現，當然也會包括一些其他的機

吳裕雄實戰python程式設計（2）

from urllib.parse import urlparse url = 'http://www.pm25x.com/city/beijing.htm'o = urlparse(url)print(o) print("scheme={}".format(o.scheme)) # httpprint

機器學習技法筆記總結（一）SVM系列總結及實戰

機器學技法筆記總結（一）SVM系列總結及實戰 1、原理總結在機器學習課程的第1-6課，主要學習了SVM支援向量機。 SVM是一種二類分類模型。它的基本模型是在特徵空間中尋找間隔最大化的分離超平面的線性分類器。（1）當訓練樣本線性可分時，通過硬間隔最大化，學習

機器學習實戰--決策樹（一）

決策樹是一種通過推斷分解，逐步縮小待推測事物範圍的演算法結構，重要任務就是理解資料中所蘊含的知識資訊，可以使用不熟悉的資料集合，並從中提取出一系列規則，根據資料集建立規則的過程就是機器學習的過程。優點：計算複雜度不高，輸出結果易於理解，對中間值的缺失不敏感，可以處理不相關特

機器學習實戰決策樹（一）——資訊增益與劃分資料集

from math import log #計算給定的熵 def calcsahnnonent(dataset): numentries = len(dataset) #計算例項的總數 labelcounts ={} #

機器學習實戰讀書筆記（四）：樸素貝葉斯演算法

樸素貝葉斯優點: 在資料較少的情況下仍然有效可以處理多類別問題缺點：對輸入的資料的準備方式較為敏感適用資料型別：標稱型資料 p1(x,y)>p2(x,y) 那麼類別是1 p2(x,y)>p1(x,y) 那麼類別是2 貝葉斯決策的核心是選擇具有最高概率的決策

Python3 機器學習實戰自我講解（二） K-近鄰法-海倫約會-手寫字型識別

第二章 k近鄰法 2.1 概念 2.1.1 k近鄰法簡介 k近鄰法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一種基本分類與迴歸方法。它的工作原理是：存在一個樣本資料集合，也稱作為訓練樣

吳恩達（Andrew Ng）《機器學習》課程筆記（2）第2周——多變數線性迴歸

目錄四、多變數線性迴歸（Linear Regression with multiple variables） 4.1. 多維特徵（Multiple features）前面介紹的是單變數線性迴歸如下圖所示：

python學習例項（2）

#=================================== #2.2 不同進位制間的轉換 #=================================== #+++++++++++++++++++++++++++++++++++ #2.2.1. 二進

決策樹——機器學習實戰完整版（python 3）

import matplotlib.pyplot as plt # boxstyle是文字框型別 fc是邊框粗細 sawtooth是鋸齒形 '''xy是終點座標 xytext是起點座標可能疑問：為什麼說是終點，但是卻是箭頭從這出發的？解答：arrowstyle="<-" 看到沒有，這是個反

【A-003】python資料分析與機器學習實戰 Python科學計算庫 Pandas資料分析處理庫（四）DataFrame資料結構

pandas資料結構：DataFrame 引入：在上一節中已經介紹過了Series物件，Series物件可以理解為由一列索引和一列值，共兩列資料組成的結構。而DataFrame就是由一列索引和多列值組成的結構，其中，在DataFrame中的每一列都是一個S

Python機器學習筆記：SVM（2）——SVM核函式

　　上一節我學習了完整的SVM過程，下面繼續對核函式進行詳細學習，具體的參考連結都在上一篇文章中，SVM四篇筆記連結為： Python機器學習筆記：SVM（1）——SVM概述 Python機器學習筆記：SVM（2）——SVM核函式 Python機器學習筆記：SVM（3）——證明SVM Python機器學習筆記

機器學習算法整理（二）邏輯回歸 python實現

alt bubuko 邏輯 style res n) regress com png 邏輯回歸(Logistic regression) 機器學習算法整理（二）邏輯回歸 python實現

Day2----Python學習之路筆記（2）

cell 數據類型的轉換編碼格式 python3 () shel 不能索引 png 學習路線： Day1　　　　Day2　　　　Day3　　　　Day4　　　　Day5　　　　...待續　一、簡單回顧一下昨天的內容　　1. 昨天了解到了一些編碼的知識 1.1

20180813視頻筆記深度學習基礎上篇（1）之必備基礎知識點深度學習基礎上篇（2）神經網絡模型視頻筆記：深度學習基礎上篇（3）神經網絡案例實戰和深度學習基礎下篇

計算概念人臉識別大量 png 技巧表現 lex github 深度學習基礎上篇（3）神經網絡案例實戰 https://www.bilibili.com/video/av27935126/?p=1 第一課:開發環境的配置 Anaconda的安裝庫的安裝 Windo

Python機器學習基礎教程筆記（一）

description: 《Python機器學習基礎教程》的第一章筆記，書中用到的相關程式碼見github:https://github.com/amueller/introduction_to_ml_with_python ，筆記中不會記錄。為何選擇機器學習人為制訂決

Python學習初級程式設計例項（一）

題目：有1、2、3、4四個數字，能組成多少個互不相同且無重複數字的三位數？都是多少？程式分析：可填在百位、十位、個位的數字都是1、2、3、4。組成所有的排列後再去掉不滿足條件的排列。程式原始碼

機器學習實戰python例項（2）SVM優化

相關推薦