《機器學習實戰》（一）knn演算法

阿新 • • 發佈：2018-12-11

K最近鄰（k-Nearest Neighbor，KNN）分類演算法可以說是最簡單的機器學習演算法了。它採用測量不同特徵值之間的距離方法進行分類。它的思想很簡單：存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一個數據與所屬分類的對應關係。輸入沒有標籤的新資料後，將新資料的每個特徵與樣本集中資料對應的特徵進行比較，然後演算法提取樣本集中最相似資料（最近鄰）的分類標籤。一般來說，只選擇樣本資料集中前 k 個最相似的資料，這就是KNN演算法的出處, 通常k是不大於20的整數。最後，選擇 k 個最相似資料中出現次數最多的分類，作為新資料的分類。

實驗準備
numpy是python中的一款高效能科學計算和資料分析的基礎包
matplotlib是一個Python的圖形框架

程式碼如下

from numpy import *
from os import listdir
import operator



def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()
    classCount = {}
    for 
 i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1),
                              reverse=True)
    return sortedClassCount[0][0]

def img2vector 
(filename):
    rows = 32
    cols = 32
    returnVect = zeros((1, rows * cols))
    fr = open(filename)
    for row in range(rows):
        lineStr = fr.readline()
        for col in range(cols):
            returnVect[0, 32*row+col] = int(lineStr[col])
    return returnVect


def handwritingClassTest():
    hwLabels = []
    trainingFileList = listdir('trainingDigits')
    m = len(trainingFileList)
    trainingMat = zeros((m,1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)
    testFileList = listdir('testDigits')
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, \
                    trainingMat, hwLabels, 3)
        print "the classifier came back with: %d, the real answer is: %d"\
                % (classifierResult, classNumStr)
        if (classifierResult != classNumStr): errorCount += 1.0
    print "\nthe total number of errors is: %d" % errorCount
    print "\nthe total error rate is: %f" % (errorCount/float(mTest))

《機器學習實戰》（一）knn演算法

機器學習實戰（一）k-近鄰演算法kNN（k-Nearest Neighbor）

機器學習實戰（一）k-近鄰kNN（k-Nearest Neighbor）

機器學習實戰（一）--k近鄰演算法

機器學習實戰（一）—— 用線性回歸預測波士頓房價

機器學習實戰（十）Apriori演算法（關聯分析）

機器學習入門（1）--KNN演算法

機器學習實戰（3）—— kNN實戰約會網站

python機器學習實戰（一）

機器學習實戰（4）—— kNN實戰手寫識別系統

機器學習實戰（二）LR演算法：實現簡單的分類模型

機器學習實戰（python）——kNN問題解析

《機器學習實戰》（一）knn演算法

機器學習實戰ByMatlab（一）KNN演算法

機器學習實戰（六）AdaBoost元演算法

機器學習實戰（二）決策樹DT（Decision Tree、ID3演算法）

演算法工程師修仙之路：吳恩達機器學習作業（一）

KNN機器學習實戰（包含SKLearn--KNN 包的呼叫）

機器學習實戰（2）—— k-近鄰演算法

迴歸演算法（python code）----------機器學習系列（一）

機器學習筆記（一）——基於單層決策樹的AdaBoost演算法實踐

《機器學習實戰》（一）knn演算法

相關推薦