【機器學習實戰】第2章 K-近鄰演算法(k-NearestNeighbor，KNN)

阿新 • • 發佈：2019-01-01

第2章 k-近鄰演算法

KNN 概述

k-近鄰（kNN, k-NearestNeighbor）演算法主要是用來進行分類的.

KNN 場景

電影可以按照題材分類，那麼如何區分 動作片 和 愛情片 呢？

動作片：打鬥次數更多
愛情片：親吻次數更多

基於電影中的親吻、打鬥出現的次數，使用 k-近鄰演算法構造程式，就可以自動劃分電影的題材型別。

現在根據上面我們得到的樣本集中所有電影與未知電影的距離，按照距離遞增排序，可以找到 k 個距離最近的電影。
假定 k=3，則三個最靠近的電影依次是， He's Not Really into Dudes 、 Beautiful Woman 和 California Man。
knn 演算法按照距離最近的三部電影的型別，決定未知電影的型別，而這三部電影全是愛情片，因此我們判定未知電影是愛情片。

KNN 原理

KNN 工作原理

假設有一個帶有標籤的樣本資料集（訓練樣本集），其中包含每條資料與所屬分類的對應關係。
輸入沒有標籤的新資料後，將新資料的每個特徵與樣本集中資料對應的特徵進行比較。
1. 計算新資料與樣本資料集中每條資料的距離。
2. 對求得的所有距離進行排序（從小到大，越小表示越相似）。
3. 取前 k （k 一般小於等於 20 ）個樣本資料對應的分類標籤。
求 k 個數據中出現次數最多的分類標籤作為新資料的分類。

KNN 一般流程

收集資料：任何方法
準備資料：距離計算所需要的數值，最好是結構化的資料格式
分析資料：任何方法
訓練演算法：此步驟不適用於 k-近鄰演算法
測試演算法：計算錯誤率
使用演算法：輸入樣本資料和結構化的輸出結果，然後執行 k-近鄰演算法判斷輸入資料分類屬於哪個分類，最後對計算出的分類執行後續處理

KNN 演算法特點

優點：精度高、對異常值不敏感、無資料輸入假定
缺點：計算複雜度高、空間複雜度高
適用資料範圍：數值型和標稱型

KNN 專案案例

專案案例1: 優化約會網站的配對效果

專案概述

海倫使用約會網站尋找約會物件。經過一段時間之後，她發現曾交往過三種類型的人:

不喜歡的人
魅力一般的人
極具魅力的人

她希望：

工作日與魅力一般的人約會
週末與極具魅力的人約會
不喜歡的人則直接排除掉

現在她收集到了一些約會網站未曾記錄的資料資訊，這更有助於匹配物件的歸類。

開發流程

收集資料：提供文字檔案
準備資料：使用 Python 解析文字檔案
分析資料：使用 Matplotlib 畫二維散點圖
訓練演算法：此步驟不適用於 k-近鄰演算法
測試演算法：使用海倫提供的部分資料作為測試樣本。
        測試樣本和非測試樣本的區別在於：
            測試樣本是已經完成分類的資料，如果預測分類與實際類別不同，則標記為一個錯誤。
使用演算法：產生簡單的命令列程式，然後海倫可以輸入一些特徵資料以判斷對方是否為自己喜歡的型別。

收集資料：提供文字檔案

海倫把這些約會物件的資料存放在文字檔案 datingTestSet2.txt 中，總共有 1000 行。海倫約會的物件主要包含以下 3 種特徵：

每年獲得的飛行常客里程數
玩視訊遊戲所耗時間百分比
每週消費的冰淇淋公升數

文字檔案資料格式如下：

40920	8.326976	0.953952	3
14488	7.153469	1.673904	2
26052	1.441871	0.805124	1
75136	13.147394	0.428964	1
38344	1.669788	0.134296	1

準備資料：使用 Python 解析文字檔案

將文字記錄轉換為 NumPy 的解析程式

def file2matrix(filename):
   """
   Desc:
       匯入訓練資料
   parameters:
       filename: 資料檔案路徑
   return: 
       資料矩陣 returnMat 和對應的類別 classLabelVector
   """
   fr = open(filename)
   # 獲得檔案中的資料行的行數
   numberOfLines = len(fr.readlines())
   # 生成對應的空矩陣
   # 例如：zeros(2，3)就是生成一個 2*3的矩陣，各個位置上全是 0 
   returnMat = zeros((numberOfLines, 3))  # prepare matrix to return
   classLabelVector = []  # prepare labels return
   fr = open(filename)
   index = 0
   for line in fr.readlines():
       # str.strip([chars]) --返回移除字串頭尾指定的字元生成的新字串
       line = line.strip()
       # 以 '\t' 切割字串
       listFromLine = line.split('\t')
       # 每列的屬性資料
       returnMat[index, :] = listFromLine[0:3]
       # 每列的類別資料，就是 label 標籤資料
       classLabelVector.append(int(listFromLine[-1]))
       index += 1
   # 返回資料矩陣returnMat和對應的類別classLabelVector
   return returnMat, classLabelVector

分析資料：使用 Matplotlib 畫二維散點圖

import matplotlib
import matplotlib.pyplot as plt
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(datingDataMat[:, 1], datingDataMat[:, 2], 15.0*array(datingLabels), 15.0*array(datingLabels))
plt.show()

下圖中採用矩陣的第一和第三列屬性得到很好的展示效果，清晰地標識了三個不同的樣本分類區域，具有不同愛好的人其類別區域也不同。

序號	玩視訊遊戲所耗時間百分比	每年獲得的飛行常客里程數	每週消費的冰淇淋公升數	樣本分類
1	0.8	400	0.5	1
2	12	134 000	0.9	3
3	0	20 000	1.1	2
4	67	32 000	0.1	2

樣本3和樣本4的距離： $$\sqrt{(0-67)^2 + (20000-32000)^2 + (1.1-0.1)^2 }$$

歸一化特徵值，消除特徵之間量級不同導致的影響

def autoNorm(dataSet):
    """
    Desc:
        歸一化特徵值，消除特徵之間量級不同導致的影響
    parameter:
        dataSet: 資料集
    return:
        歸一化後的資料集 normDataSet. ranges和minVals即最小值與範圍，並沒有用到

    歸一化公式：
        Y = (X-Xmin)/(Xmax-Xmin)
        其中的 min 和 max 分別是資料集中的最小特徵值和最大特徵值。該函式可以自動將數字特徵值轉化為0到1的區間。
    """
    # 計算每種屬性的最大值、最小值、範圍
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    # 極差
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    # 生成與最小值之差組成的矩陣
    normDataSet = dataSet - tile(minVals, (m, 1))
    # 將最小值之差除以範圍組成矩陣
    normDataSet = normDataSet / tile(ranges, (m, 1))  # element wise divide
    return normDataSet, ranges, minVals

訓練演算法：此步驟不適用於 k-近鄰演算法

因為測試資料每一次都要與全量的訓練資料進行比較，所以這個過程是沒有必要的。

測試演算法：使用海倫提供的部分資料作為測試樣本。如果預測分類與實際類別不同，則標記為一個錯誤。

kNN 分類器針對約會網站的測試程式碼

def datingClassTest():
    """
    Desc:
        對約會網站的測試方法
    parameters:
        none
    return:
        錯誤數
    """
    # 設定測試資料的的一個比例（訓練資料集比例=1-hoRatio）
    hoRatio = 0.1  # 測試範圍,一部分測試一部分作為樣本
    # 從檔案中載入資料
    datingDataMat, datingLabels = file2matrix('input/2.KNN/datingTestSet2.txt')  # load data setfrom file
    # 歸一化資料
    normMat, ranges, minVals = autoNorm(datingDataMat)
    # m 表示資料的行數，即矩陣的第一維
    m = normMat.shape[0]
    # 設定測試的樣本數量， numTestVecs:m表示訓練樣本的數量
    numTestVecs = int(m * hoRatio)
    print 'numTestVecs=', numTestVecs
    errorCount = 0.0
    for i in range(numTestVecs):
        # 對資料測試
        classifierResult = classify0(normMat[i, :], normMat[numTestVecs:m, :], datingLabels[numTestVecs:m], 3)
        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i])
        if (classifierResult != datingLabels[i]): errorCount += 1.0
    print "the total error rate is: %f" % (errorCount / float(numTestVecs))
    print errorCount

使用演算法：產生簡單的命令列程式，然後海倫可以輸入一些特徵資料以判斷對方是否為自己喜歡的型別。

約會網站預測函式

def clasdifyPerson():
    resultList = ['not at all', 'in small doses', 'in large doses']
    percentTats = float(raw_input("percentage of time spent playing video games ?"))
    ffMiles = float(raw_input("frequent filer miles earned per year?"))
    iceCream = float(raw_input("liters of ice cream consumed per year?"))
    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
    normMat, ranges, minVals = autoNorm(datingDataMat)
    inArr = array([ffMils, percentTats, iceCream])
    classifierResult = classify0((inArr-minVals)/ranges,normMat,datingLabels, 3)
    print "You will probably like this person: ", resultList[classifierResult - 1]

實際執行效果如下:

>>> kNN.classifyPerson()
percentage of time spent playing video games?10
frequent flier miles earned per year?10000
liters of ice cream consumed per year?0.5
You will probably like this person: in small doses

專案案例2: 手寫數字識別系統

專案概述

構造一個能識別數字 0 到 9 的基於 KNN 分類器的手寫數字識別系統。

需要識別的數字是儲存在文字檔案中的具有相同的色彩和大小：寬高是 32 畫素 * 32 畫素的黑白影象。

開發流程

收集資料：提供文字檔案。
準備資料：編寫函式 img2vector(), 將影象格式轉換為分類器使用的向量格式
分析資料：在 Python 命令提示符中檢查資料，確保它符合要求
訓練演算法：此步驟不適用於 KNN
測試演算法：編寫函式使用提供的部分資料集作為測試樣本，測試樣本與非測試樣本的
         區別在於測試樣本是已經完成分類的資料，如果預測分類與實際類別不同，
         則標記為一個錯誤
使用演算法：本例沒有完成此步驟，若你感興趣可以構建完整的應用程式，從影象中提取
         數字，並完成數字識別，美國的郵件分揀系統就是一個實際執行的類似系統

收集資料: 提供文字檔案

目錄 trainingDigits 中包含了大約 2000 個例子，每個例子內容如下圖所示，每個數字大約有 200 個樣本；目錄 testDigits 中包含了大約 900 個測試資料。

準備資料: 編寫函式 img2vector(), 將影象文字資料轉換為分類器使用的向量

將影象文字資料轉換為向量

def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readLine()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect

分析資料：在 Python 命令提示符中檢查資料，確保它符合要求

在 Python 命令列中輸入下列命令測試 img2vector 函式，然後與文字編輯器開啟的檔案進行比較:

>>> testVector = kNN.img2vector('testDigits/0_13.txt')
>>> testVector[0,0:31]
array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])
>>> testVector[0,31:63]
array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

訓練演算法：此步驟不適用於 KNN

因為測試資料每一次都要與全量的訓練資料進行比較，所以這個過程是沒有必要的。

測試演算法：編寫函式使用提供的部分資料集作為測試樣本，如果預測分類與實際類別不同，則標記為一個錯誤

def handwritingClassTest():
    # 1. 匯入訓練資料
    hwLabels = []
    trainingFileList = listdir('input/2.KNN/trainingDigits')  # load the training set
    m = len(trainingFileList)
    trainingMat = zeros((m, 1024))
    # hwLabels儲存0～9對應的index位置， trainingMat存放的每個位置對應的圖片向量
    for i in range(m):
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]  # take off .txt
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        # 將 32*32的矩陣->1*1024的矩陣
        trainingMat[i, :] = img2vector('input/2.KNN/trainingDigits/%s' % fileNameStr)

    # 2. 匯入測試資料
    testFileList = listdir('input/2.KNN/testDigits')  # iterate through the test set
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]  # take off .txt
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('input/2.KNN/testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr)
        if (classifierResult != classNumStr): errorCount += 1.0
    print "\nthe total number of errors is: %d" % errorCount
    print "\nthe total error rate is: %f" % (errorCount / float(mTest))

使用演算法：本例沒有完成此步驟，若你感興趣可以構建完整的應用程式，從影象中提取數字，並完成數字識別，美國的郵件分揀系統就是一個實際執行的類似系統

【機器學習實戰】第2章 K-近鄰演算法(k-NearestNeighbor，KNN)

第2章 k-近鄰演算法 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script>

【機器學習實戰】第13章利用 PCA 來簡化數據

light nan 文本 com axis 均值 ... cati 二維空間第13章利用 PCA 來簡化數據降維技術場景我們正通過電視觀看體育比賽，在電視的顯示器上有一個球。顯示器大概包含了100萬像素點，而球則可能是由較少的像素點組成，例如說一千個像素

【機器學習實戰】第6章支援向量機（Support Vector Machine / SVM）

第6章支援向量機 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script>

【機器學習實戰】第3章決策樹

第3章決策樹 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script> 決策

【機器學習實戰】第1章機器學習基礎

第1章機器學習基礎機器學習概述機器學習就是把無序的資料轉換成有用的資訊。獲取海量的資料從海量資料中獲取有用的資訊我們會利用計算機來彰顯資料背後的真實含義，這才是機器學習的意義。機器學習場景例如：

【機器學習實戰】第10章 K-Means（K-均值）聚類演算法

第 10章K-Means（K-均值）聚類演算法 K-Means 演算法聚類是一種無監督的學習, 它將相似的物件歸到一個簇中, 將不相似物件歸到不同簇中. 相似這一概念取決於所選擇的相似度計算方法. K-Means 是發現給定資料集的 K 個簇的聚類演算法, 之

【機器學習實戰】第6章支援向量機

def smoSimple(dataMatIn, classLabels, C, toler, maxIter): """smoSimple Args: dataMatIn 特徵集合 classLabels 類別標籤 C 鬆弛變數

《機器學習實戰》第2章閱讀筆記1 K近鄰演算法概述

K近鄰演算法採用測量不同特徵值之間的距離方法進行分類。 K-近鄰演算法工作原理：存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中的每個資料都存在標籤，即我們知道樣本集中每一資料與所屬分類的對應關係。輸入每一標籤的新資料後，將新資料的每個特徵與樣本集中資料對應的特徵進行比較，然後提取

《機器學習實戰》第2章閱讀筆記3 使用K近鄰演算法改進約會網站的配對效果—分步驟詳細講解1——資料準備：從文字檔案中解析資料（附詳細程式碼及註釋）

本篇使用的資料存放在文字檔案datingTestSet2.txt中，每個樣本資料佔據一行，總共有1000行。樣本主要包含以下3中特徵：（1）每年獲得飛行常客里程數（2）玩視訊遊戲所耗時間百分比（3）每週消費的冰淇淋公升數在使用分類器之前，需要將處理的檔案格式

《機器學習實戰》第2章閱讀筆記2 K近鄰演算法實現（附詳細程式碼及註釋）

虛擬碼如下：對未知類別屬性的資料集中的每個點一次執行以下操作：（1）計算已知類別資料集中的點與當前點之間的距離；（2）按照距離遞增次序排序；（3）選取與當前點距離最小的k個點；（4）確定前k個點所在類別出現的頻率（5）返回前k個點出現頻率最高的類

《機器學習實戰》第七章----AdaBoost元演算法

元演算法元演算法是對其他演算法進行組合的一種方法,其背後的思路就是組合多個專家的經驗來得到最終的結論,類似於我們的投票.而提升方法是其中最常用的方法,在分類問題中,它通過改變訓練樣本的權重,學習多個分類器,並將這些這些分類器進行線性組合. 弱分類器和強分類器關於Ad

【吳恩達機器學習筆記】第三章：線性迴歸回顧

本章是對線性代數的一些簡單回顧，由於之前學過，所以這裡只是簡單的將課程中的一些例子粘過來矩陣表示矩陣加法和標量乘法矩陣向量乘法用矩陣向量乘法來同時計算多個預測值矩陣乘法用矩陣乘法同時計算多個迴歸

【吳恩達機器學習筆記】第五章：多變數線性迴歸

目錄多特徵下的目標函式多元梯度下降法多元梯度下降法中的方法特徵縮放選擇學習率特徵和多項式迴歸正規方程（區別於迭代法的直接解法）正規方程在矩陣不可逆的情況下的解決方法

《機器學習實戰》第三章 3.2在python 中使用matplotlib註解繪製樹形圖

《機器學習實戰》系列部落格主要是實現並理解書中的程式碼，相當於讀書筆記了。畢竟實戰不能光看書。動手就能遇到許多奇奇怪怪的問題。博文比較粗糙，需結合書本。博主邊查邊學，水平有限，有問題的地方評論區請多指教。書中的程式碼和資料，網上有很多請自行下載。 3.2.

【機器學習實戰】製作五子棋AI之四：基本規則的建立【2】

在上一次，我們建立了棋盤的狀態類GameStatus，用來存取和顯示每一步走完後的棋盤上黑白子的狀態。想一想，為了像真實的五子棋遊戲一樣執行，還缺了遊戲勝負的判定，那麼我們定義一個函式對遊戲勝負進行判斷。 def check_win(black,white

【構建之法】第2章個人技術和流程

新功能個人開發基本詳細分析 div 升級多語言設計文檔質量 1 單元測試 (1) 單元測試 (2) 回歸測試回退操作 2 效能分析工具先用抽樣的方法找到效能瓶頸所在，然後對特定的模塊用代碼註入的方法進行詳細分析 3 個人開發流程 (1) 計劃明確需求和其

《機器學習實戰》第7章的一處代碼錯誤

traceback com post cond 解決 elm back document image --------------------------------------------------------------------------- IndexError

《機器學習實戰》第8章書本正文缺少一個函數

copy AR 機器 reg str 代碼 var div mean 在8.4.2 lasso的stageWist函數裏使用到了一個用於標準化的函數regularize，這個函數是需要自定義的，但是書中沒有給出來。在示例代碼中有，是這樣子的： def regularize

【Linux學習筆記】第4章 Linux磁盤管理

linux centos 磁盤格式化 LVM 4.1df命令df 查看文件系統磁盤空間使用情況。文件系統磁盤總大小（kB）已使用可用已用% 掛載點（目錄）Linux磁盤不能直接訪問，必須要有一個掛載點。參數：-h 可根據磁盤大小顯示適當的單位。帶有tmpfs代表臨時的

【Linux學習筆記】第5章 VIM工具

linux centos vim 5.1vim介紹vim是vi的升級版，帶有顏色顯示，先安裝包yum install -y vim-enhancedvim分為三種模式：一般模式、編輯模式、命令模式。 5.2vim顏色顯示和移動光標相同的文件信息在不同目錄下顯示顏色會有差異。相同內容，不同文件名，

【機器學習實戰】第2章 K-近鄰演算法(k-NearestNeighbor，KNN)

第2章 k-近鄰演算法

KNN 概述

KNN 場景

KNN 原理

KNN 專案案例

專案案例1: 優化約會網站的配對效果

專案概述

開發流程

專案案例2: 手寫數字識別系統

專案概述

開發流程

相關推薦