監督學習算法_k-近鄰(kNN)分類算法_源代碼

阿新 • • 發佈：2019-01-18

tex 改變分析 https color () 根據 def 計算

因為自己想學著去寫機器學習的源碼，所以我最近在學習《機器學習實戰》這本書。

《機器學習實戰》是利用Python2完成的機器學習算法的源代碼，並利用機器學習方法來對實際問題進行分析與處理。

（《機器學習實戰》豆瓣讀書網址：https://book.douban.com/subject/24703171/）

以下內容是我通過學習《機器學習實戰》，以及我對k-近鄰(kNN)分類算法的理解，所總結整理出的內容，其中kNN分類算法的源碼為Python3的代碼，希望大家多多批評指正。

kNN分類算法是一類有監督的學習算法，kNN分類算法首先計算出測試樣本點與已知樣本點之間的距離，選擇距離測試樣本點最近的k個已知樣本點，根據k個已知樣本點的類別，通過“投票法”得到測試樣本點的最終分類。

kNN分類算法的優缺點：優點：精度高、對異常值不敏感、無數據輸入假定；缺點：計算復雜度高、空間復雜度高；適用數據範圍：數值型和標稱型（標稱型數據：變量的結果只在有限目標集中取值）。--摘自《機器學習實戰》

kNN分類算法通常使用歐氏距離來計算測試樣本點與已知樣本點之間的距離。

已知兩個點A=(x1, y1)、B=(x2, y2)，則A和B的歐氏距離為：

Distance = sqrt( (x1-x2)^2 + (y1-y2)^2 )

kNN分類算法的偽代碼如下：

Step1：計算出測試樣本點與已知樣本點之間的距離；

Step2：將距離按照升序排序；

Step3：選擇距離測試樣本點最近的k個已知樣本點；

Step4：計算k個最近的已知樣本點所在類別出現的頻率；

Step5：k個最近的已知樣本點出現頻率最高的類別，即為測試樣本點的最終分類。

kNN分類算法的源碼：

def classify(test, samples, labels, k):

　　import numpy as np
　　import operator

　　# 改變測試樣本的格式
　　samplesize = samples.shape[0]
　　testnew = np.tile(test, (samplesize, 1))

　　# 計算測試樣本與已知樣本之間的距離
　　distances2 = (testnew - samples) ** 2

　　distances = (distances2.sum(axis = 1)) ** 0.5

　　# 對距離進行升序排序，並返回距離的下標
　　sortdistances = distances.argsort()

　　#計算k個最近的已知樣本點所在類別出現的次數
　　classcount = {}

　　for i in range(k):
　　　　sortedlabels = labels[sortdistances[i]]
　　　　classcount[sortedlabels] = classcount.get(sortedlabels, 0) + 1

　　#將k個最近的已知樣本點所在類別出現的次數降序排列
　　sortedclasscount = sorted(classcount.items(), key = operator.itemgetter(1),reverse = True)

　　#返回k個最近的已知樣本點出現頻率最高的類別，即為測試樣本點的最終分類
　　return sortedclasscount[0][0]

對 kNN分類算法的源碼進行測試：

import numpy as np

import operator
test = [0, 1]
samples = np.array([[1, 1], [1, 3], [0, 0], [0., .1]])
labels = [‘A‘, ‘A‘, ‘B‘, ‘B‘]
k = 3
print(classify(test, samples, labels, k))

測試代碼的輸出結果為 ‘B‘，即測試樣本點[0, 1]的所屬類別為：B。

以上是我對kNN分類算法的理解以及源代碼，歡迎大家多多批評指正。

後續如果有時間的話，我會增加監督學習算法_k-近鄰(kNN)分類算法_實戰這一部分的隨筆整理。

祝好

希望可以和大家互相學習、共同進步。

Violet HE

2019.1.18 00:35

監督學習算法_k-近鄰(kNN)分類算法_源代碼

tex 改變分析 https color () 根據 def 計算因為自己想學著去寫機器學習的源碼，所以我最近在學習《機器學習實戰》這本書。《機器學習實戰》是利用Python2完成的機器學習算法的源代碼，並利用機器學習方法來對實際問題進行分析與處理。（《機器學習實戰

監督學習算法_k-近鄰(kNN)分類算法_源代碼

監督學習算法_k-近鄰(kNN)分類算法_源代碼

分類與監督學習，樸素貝葉斯分類算法

《機器學習系統設計》高清中文版+高清英文版+源代碼

《Python深度學習》高清中文版pdf+高清英文版pdf+源代碼

分享《機器學習：實用案例解析》中文版PDF+英文版PDF+源代碼

Tensorflow 實戰Google深度學習框架第五章 5.2.1Minister數字識別源代碼

分享《21個項目玩轉深度學習：基於TensorFlow的實踐詳解》PDF+源代碼

《21個項目玩轉深度學習：基於TensorFlow的實踐詳解》PDF+源代碼

機器學習實戰 k-近鄰算法實施kNN分類算法

KNN分類算法補充

【CS229筆記一】監督學習，線性回歸，LMS算法，正態方程，概率解釋和局部加權線性回歸

機器學習之K-最近鄰規則分類(KNN)演算法

分享《Python機器學習—預測分析核心算法》高清中文版PDF+高清英文版PDF+源代碼

《Python機器學習—預測分析核心算法》高清中文版PDF+高清英文版PDF+源代碼

分類與監督學習，樸素貝葉斯分類演算法

分享《Python學習手冊(第4版)》高清中文PDF+高清英文PDF+源代碼+《算法圖解》PDF代碼

【SciKit-Learn學習筆記】2：kNN分類/迴歸,在糖尿病資料集上的表現

STL源代碼剖析——基本算法stl_algobase.h

癌癥檢測算法頭名_ 附代碼

STL源代碼剖析——STL算法之set集合算法

監督學習算法_k-近鄰(kNN)分類算法_源代碼

相關推薦