機器學習入門--kNN演算法

阿新 • • 發佈：2019-02-05

新的學習征程

之前的blog主要是關於Android和Nodejs的一些開發學習筆記，在經歷了一段時間的學習和實習之後，也拿到了幾個大廠offer，痛定思痛下決心在大四參加考研，現在考研成功，也要繼續開始新的學習了，接下來的學習將主要以Machine Learning為主，由於很多主流的書籍論文都是英文，希望也能鍛鍊著以後用英文來寫一些學習記錄blog。我個人之前是沒有過任何機器學習相關的學習經驗的，現在也是from 0 to n.

專案原始碼

這一個系列打算都放在這個project裡面，語言是Python，即時更新，希望能點個star

https://github.com/CallMeSp/MachineLearning

正文

機器學習開發大體遵循一定的步驟

收集資料
準備輸入資料
分析輸入資料
訓練演算法（無監督學習則不需要）
測試演算法
使用演算法

機器學習界有個所謂的“十大演算法”或者“二十大演算法”
今天帶來的就是最簡單的一個：k-近鄰演算法

工作原理很簡單：存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一個數據與所屬分類的對應關係。輸入沒有標籤的新資料後，將新資料的每個特徵與樣本集中資料對應的特徵進行比較，然後演算法提取樣本集中特徵最相似的分類標籤。一般來說只是選擇樣本資料集中前k個最相似的資料，這就是k-近鄰演算法中k的出處，簡稱kNN

kNN優劣：

優勢	劣勢
精度高、對異常值不敏感	計算複雜度高
無資料輸入假定	空間複雜度高

演算法：

def classify0(inX,dataSet,labels,k):
    dataSetSize=dataSet.shape[0]
    #[0]和[1]分別是行數和列數
    diffMat = tile(inX,(dataSetSize,1))-dataSet
    sqDiffMat=diffMat**2
    sqDistances=sqDiffMat.sum(axis=1)
    #axis=0指同一行相加 

    distances=sqDistances**0.5
    sortedDistIndicies=distances.argsort()
    #遞增排列的原陣列下標組成的新陣列
    classcount={}
    for i in range(k):
        #選擇距離最小的k個點
        vl=labels[sortedDistIndicies[i]]
        classcount[vl]=classcount.get(vl,0)+1
    sortedclasscount = sorted(classcount.iteritems(),key=operator.itemgetter(1),reverse=True)
    #距離最小的k個點中哪個類別佔得比重多
    return sortedclasscount[0][0]

歸一化特徵值

這種處理是防止同等權重的特徵因為範圍差距大，而導致某個特徵嚴重的影響到計算結果，所以進行一下處理，將所有的特徵值全都轉化到0～ 1之間，從而保證權重相同,下面看一下程式碼吧。

def autoNorm(dataSet):
    minvals=dataSet.min(0)
    maxvals=dataSet.max(0)
    ranges=maxvals-minvals
    normDataSet=zeros(shape(dataSet))
    m=dataSet.shape[0]
    normDataSet=dataSet-tile(minvals,(m,1))
    normDataSet=normDataSet/tile(ranges,(m,1))
    return normDataSet,ranges,minvals

示例demo

環境：linux+Python2.7
測試用例：在gihub連結中有
本demo參考《Machine Learning in Action》

from numpy import *
import operator
import matplotlib
import matplotlib.pyplot as plt
from os import listdir

#分類，inX是待分類向量，dataSet是已有表現的一組資料，labels就是該標籤元組，k是kNN中對應的k，
def classify0(inX,dataSet,labels,k):
    dataSetSize=dataSet.shape[0]
    diffMat = tile(inX,(dataSetSize,1))-dataSet
    sqDiffMat=diffMat**2
    sqDistances=sqDiffMat.sum(axis=1)
    distances=sqDistances**0.5
    sortedDistIndicies=distances.argsort()
    classcount={}
    for i in range(k):
        vl=labels[sortedDistIndicies[i]]
        classcount[vl]=classcount.get(vl,0)+1
    sortedclasscount = sorted(classcount.iteritems(),key=operator.itemgetter(1),reverse=True)
    return sortedclasscount[0][0]

#將文字檔案轉化為元組，這裡為了更加直觀，測試用例都通過txt形式來展現。
def file2Matrix(filename):
    fr=open(filename)
    arraylines=fr.readlines()
    numberOfLines=len(arraylines)
    returnMat=zeros((numberOfLines,3))
    classLabelVector=[]
    index=0
    for line in arraylines:
        line=line.strip()
        listFromLine=line.split('\t')
        returnMat[index,:]=listFromLine[0:3]
        classLabelVector.append(listFromLine[-1])
        index+=1
    return returnMat,classLabelVector

#通過matplotlib繪圖
def draw():
    datas, labels = file2Matrix('datingTestSet2.txt')
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(datas[:, 1], datas[:, 2], 15.0 * array(map(int,labels)), 15.0 * array(map(int,labels)))
    plt.show()

#歸一化
def autoNorm(dataSet):
    minvals=dataSet.min(0)
    maxvals=dataSet.max(0)
    ranges=maxvals-minvals
    normDataSet=zeros(shape(dataSet))
    m=dataSet.shape[0]
    normDataSet=dataSet-tile(minvals,(m,1))
    normDataSet=normDataSet/tile(ranges,(m,1))
    return normDataSet,ranges,minvals

#將demo中的示例歸一化操作
def normalization():
    dataSet,labels=file2Matrix('datingTestSet2.txt')
    normMat,ranges,minvals=autoNorm(dataSet)
    print normMat
    print ranges
    print minvals

#自動分類測試，列印錯誤率
def datingClassTest():
    #前10%是用於測試正確率，後90%用於訓練分類器
    hoRatio=0.10
    dataSet,labels=file2Matrix('datingTestSet.txt')
    normMat,ranges,minvals=autoNorm(dataSet)
    m=normMat.shape[0]
    numTestVecs=int(m*hoRatio)
    errorCount=0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],labels[numTestVecs:m],3)
        print "the classifier came back with  : %s,the real answer is : %s"%(classifierResult,labels[i])
        if(classifierResult != labels[i]):
                errorCount+=1
    print "errorCount = %d"%(errorCount)
    print "the total error rate is %f"%(errorCount/float(numTestVecs))

#將32*32文字資訊轉化為1*1024
def img2Vector(filename):
    returnVect=zeros((1,1024))
    fr=open(filename)
    for i in range(32):
        lineStr=fr.readline()
        for j in range(32):
            returnVect[0,32*i+j]=int(lineStr[j])
    return returnVect

#手寫識別分類器
def handwritingClassTest():
    hwLabels=[]
    trainingFileList=listdir('trainingDigits')
    m=len(trainingFileList)
    trainingMat=zeros((m,1024))
    for i in range(m):
        fileNameStr=trainingFileList[i]
        fileStr=fileNameStr.split('.')[0]
        classNumStr=int (fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        trainingMat[i,:]=img2Vector('trainingDigits/%s'%fileNameStr)

    testFileList=listdir('testDigits')
    errorCount=0.0
    mTest=len(testFileList)
    for i in range(mTest):
        fileNameStr=testFileList[i]
        fileStr=fileNameStr.split('.')[0]
        classNumStr=int (fileStr.split('_')[0])
        vectorUnderTest = img2Vector('testDigits/%s'%fileNameStr)
        classifierResult=classify0(vectorUnderTest,trainingMat,hwLabels,3)
        print "the classifier came back with : %d,the real answer is : %d"%(classifierResult,classNumStr)
        if(classifierResult!=classNumStr):errorCount+=1.0
    print "\nthe total number of errors is : %d"%errorCount
    print "\nthe total error rate is : %f "%(errorCount/float(mTest))

實戰

接下來打算寫個python爬蟲，獲取到測試用例，然後通過kNN演算法來進行一些測試。

to be continued

機器學習入門--kNN演算法

新的學習征程

專案原始碼

正文

kNN優劣：

演算法：

歸一化特徵值

示例demo

實戰

機器學習入門-Knn演算法

機器學習入門--kNN演算法

機器學習實戰——KNN演算法手寫數字識別

機器學習實戰——KNN演算法改進約會網站配對效果

機器學習實戰——KNN演算法預測電影型別

[機器學習]利用KNN演算法進行驗證碼識別

機器學習-mnist kNN演算法識別（python）

機器學習(一)------KNN演算法

機器學習實戰-KNN演算法實現及遇到的問題總結

機器學習之KNN演算法實現影象分類

機器學習實戰--KNN 演算法筆記

機器學習：KNN演算法(MATLAB實現)

【python與機器學習入門1】KNN（k近鄰）演算法2 手寫識別系統

機器學習入門（1）--KNN演算法

新手入門機器學習十大演算法

機器學習之KNN最鄰近分類演算法

機器學習入門：概念原理及常用演算法

機器學習--k-近鄰演算法（kNN）實現手寫數字識別

機器學習實戰----kNN近鄰演算法問題記錄

機器學習入門（四）迴歸演算法

機器學習入門--kNN演算法

新的學習征程

專案原始碼

正文

kNN優劣：

演算法：

歸一化特徵值

示例demo

實戰

相關推薦