《機器學習實戰》第二章：k-近鄰演算法（3）手寫數字識別

阿新 • • 發佈：2019-01-18

這是k-近鄰演算法的最後一個例子——手寫數字識別！

怎樣？是不是聽起來很高大上？

呵呵。然而這跟影象識別沒有半毛錢的關係

因為每個資料樣本並不是手寫數字的圖片，而是有由0和1組成的文字檔案，就像這樣：

嗯，這個資料集中的每一個樣本用圖形軟體處理過，變成了寬高都是32畫素的黑白影象。用文字格式表示出來就成了上面這個樣子，是一個32*32的矩陣。於是每個樣本就有1024維，這些0或1就是每個樣本的特徵值，標籤是手寫的數字，範圍0~9，比如左邊這幅是3，右邊這幅是6。

每個標籤都有將近200個樣本，可供訓練。

---------------------------------------------------------------------------------------------

我們首先定義一個函式，用於把上面這樣的一個txt檔案，變成一個1*1024的特徵矩陣。

def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0, 32 * i + j] = int(lineStr[j])
    return returnVect

然後，基於訓練集合測試集，測試classify0分類器的效果。

from os import listdir

def handwritingClassTest():
    hwLabels = []
    trainingFileList = listdir('trainingDigits')
    m = len(trainingFileList)
    trainingMat = zeros((m,1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)
    testFileList = listdir('testDigits')
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr)
        if (classifierResult != classNumStr): errorCount += 1.0
    print "\nthe total number of errors is: %d" % errorCount
    print "\nthe total error rate is: %f" % (errorCount/float(mTest))

hwLabels 存放每條訓練集資料的標籤。

函式列出路徑下的所有檔案和資料夾。'trainingDigits' 這個目錄下放的是訓練集資料樣本（就是上面那張圖展現的眾多文字檔案）。m是訓練集樣本數量。trainingMat是訓練集特徵矩陣。

8~13行這個迴圈：每個訓練樣本命名規則是n_x.txt，n就是標籤，x是該標籤的第幾個樣本。比如1_6.txt就是標籤1的第6的樣本。標籤存入hwLabels這個list裡面。然後把文字檔案轉換成特徵矩陣，用的是剛才那個img2vector函式。

然後開始搞測試樣本。測試樣本放在'testDigits' 這個目錄下，mTest是測試樣本數量。

17~24

行這個迴圈：首先也是通過檔名把測試樣本的正確標籤摳出來，存入classNumStr。然後把文字檔案轉換成特徵矩陣，存入vectorUnderTest。然後把vectorUnderTest當做待測試資料傳入classify0分類器（原始碼在第一篇部落格）。得出的分類結果和classNumStr相比較，統計錯誤率。

執行結果（執行的過程比較慢）：

錯誤率僅為1.2%，效果還是不錯的。

《機器學習實戰》第二章：k-近鄰演算法（3）手寫數字識別

《機器學習實戰》第二章：k-近鄰演算法（3）手寫數字識別

《機器學習實戰》第二章：k-近鄰演算法（1）簡單KNN

《機器學習實戰》第二章：k-近鄰演算法（2）約會物件分類

Python3《機器學習實戰》01：k-近鄰演算法（完整程式碼及註釋）

機器學習實戰筆記一：K-近鄰演算法在約會網站上的應用

Python3《機器學習實戰》筆記：K-近鄰演算法

機器學習實戰k近鄰演算法(kNN)應用之手寫數字識別程式碼解讀

機器學習筆記九：K近鄰演算法（KNN）

機器學習實戰之k-近鄰演算法（3）---如何視覺化資料

機器學習實戰第二章----KNN

機器學習實戰-第二章代碼+註釋-KNN

【2】機器學習之兄弟連：K近鄰和K-means

機器學習實戰第二章——學習KNN演算法，讀書筆記

機器學習實戰第二章KNN（1）python程式碼及註釋

機器學習實戰：k-臨近演算法（二）

《機器學習實戰》學習筆記——K-近鄰演算法（KNN）(二)海倫約會網站匹配實戰

Python3 機器學習實戰自我講解（二） K-近鄰法-海倫約會-手寫字型識別

機器學習實戰第二章記錄

機器學習實戰之k-近鄰演算法（4）--- 如何歸一化資料

機器學習實戰讀書筆記(1)--k鄰近演算法

《機器學習實戰》第二章：k-近鄰演算法（3）手寫數字識別

相關推薦