機器學習之KNN（k近鄰）演算法

阿新 • • 發佈：2019-01-11

1、演算法介紹
k近鄰演算法是學習機器學習的入門演算法，可實現分類與迴歸，屬於監督學習的一種。演算法的工作原理是：輸入一個訓練資料集，訓練資料集包括特徵空間的點和點的類別，可以是二分類或是多分類。預測時，輸入沒有類別的點，找到k個與該點距離最接近的點，使用多數表決的方法，得出最後的預測分類。

2、演算法優缺點
優點：沒有高深的數學思想，容易理解，精度高，對異常值不敏感，無資料輸入假定；
缺點：計算複雜度高，空間複雜度高；
理解：因為knn演算法是尋找與目標點接近的點，在計算時，異常值與目標點的“距離”會較遠，所以對於異常值不敏感。但是，對於每一個目標點，都要計算一次。若是訓練資料集數量很大，且資料集的點維度高，這樣計算起來十分費時。因此，也誕生了kd樹等優化演算法。

3、演算法三要素
knn演算法三要素分別為：度量距離，k值，決策規則。
3.1、度量距離
特徵空間中的兩個例項點的距離是兩個例項點相似程度的反映。K近鄰法的特徵空間一般是n維實數向量空間R^n。
對於兩個樣本點之間

距離（閔可夫斯基（Minkowski）距離）定義為

當p=1時，該距離稱為曼哈頓距離，也稱為街區距離；
當p=2時，該距離稱為歐式距離，這也是高中數學中求二維空間或是三維空間中兩點距離的方法；knn演算法也一般取歐式距離。
當p為無窮大時，該距離稱為切比雪夫距離。
3.2、k值
k值的選擇會對k近鄰法的結果產生重大影響。在應用中，k值一般取一個比較小的數值，通常採用交叉驗證法來選取最優的k值。
3.3、決策規則

通常採用多數表決的方式，在k個距離較近的點中，哪一個分類較多即作為最後的預測結果。

4、數學例子
訓練資料集

x1 x2 分類

1 1.1 A

1 1 A

0 0 B

0 0.2 B

測試資料集（0,0.1）
對於（0,0.1），取歐式距離，k=3：
L=[(1-0)^2+(1.1-0.1)^2]^0.5=√2
L=[(1-0)^2+(1-0.1)^2]^0.5=√1.81
L=[(0-0)^2+(0-0.1)^2]^0.5=√0.01
L=[(0-0)^2+(0.2-0.1)^2]^0.5=√0.01
取k=3，即取L=√1.81，A類；L=√0.01，B類；L=√0.01，B類；
根據多數表決規則，(0,0.1)屬於B類

x1	x2	分類
1	1.1	A
1	1	A
0	0	B
0	0.2	B

5、資料預處理：歸一化數值
為了防止某一特徵對結果的影響太大，故常採用資料歸一化對資料進行預處理。
歸一化是將特徵數值轉化為0到1之間的值
公式為：newValue = （oldValue - min）/(max - min)

6、knn演算法程式碼實現
6.1、Python程式碼：

def calDistance(vector1, vector2, q):#定義計算閔可夫斯基距離的函式
    distance = 0.0
    n = len(vector1)
    for i in range(n):
        distance += pow(abs(vector1[i] - vector2[i]), q)
    return round(pow(distance, 1.0 / q), 3)

def findNearestNeighbor(train_x,train_y,item,q=2,k=10):
    neighbors = []#儲存訓練集與目標點的結果【訓練集點，該點分類，距離】
    k_neighbors = {}#儲存十個近鄰的結果及投票次數
    for x,y in zip(train_x,train_y):#遍歷訓練集和目標點的距離，並存儲在neighbors
        distance = calDistance(x,item,q)
        neighbors.append([x,y,distance])
    neighbors.sort(key=lambda x:x[2])#根據距離進行排序
    for i in range(k):#遍歷結果，將k個最近鄰的點的結果寫成字典形式
        k_neighbors.setdefault(neighbors[i][1],0)
        k_neighbors[neighbors[i][1]] += 1

    # 返回排序後的k個近鄰鍵值對
    nearest_neighbor = sorted(k_neighbors.items(),key=lambda x:x[1],reverse=True)
    #返回最大的投票數那個key
    return nearest_neighbor[0][0]

if __name__ == '__main__':
    data_x = [[1,1],[1,1.1],[0,0],[0,0.2]]
    data_y = ['A','A','B','B']
    item = [0,0]
    q = 2
    k = 3
    result = findNearestNeighbor(train_x=data_x,train_y=data_y,item=item,q=q,k=k)
    print('預測分類為：',result)

6.2、sklearn庫的實現

from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn import datasets

iris = datasets.load_iris()#鳶尾花資料是一個字典，鳶尾花特徵的key是data，型別的key是target
iris_X = iris.data# 拆分屬性資料
iris_y = iris.target# 拆分類別資料
# 拆分測試集和訓練集,並進行預測,其中訓練集80%，測試集20%
iris_X_train , iris_X_test, iris_y_train ,iris_y_test = train_test_split(iris_X, iris_y, test_size=0.2,random_state=0)

knn = KNeighborsClassifier(n_neighbors=10,p=2)#建立knn演算法
knn.fit(iris_X_train, iris_y_train)# 提供訓練集進行訓練
predict_result = knn.predict(iris_X_test)# 預測測試集鳶尾花型別
correct_rate = knn.score(iris_X_test, iris_y_test)#計算正確率

print('預測結果',predict_result)
print('預測準確率',str(correct_rate*100)+'%')

參考書籍：
《統計學習方法》--李航
《機器學習實戰》--Peter

本次的學習就到此結束啦！感興趣的讀者或者想和我聊聊的請私信我，或者關注公眾號：程式設計師吃橘子

機器學習之KNN（k近鄰）演算法

1、演算法介紹k近鄰演算法是學習機器學習的入門演算法，可實現分類與迴歸，屬於監督學習的一種。演算法的工作原理是：輸入一個訓練資料集，訓練資料集包括特徵空間的點和點的類別，可以是二分類或是多分類。預測時，輸入沒有類別的點，找到k個與該點距離最接近的點，使用多數表決的方法，得出最後的預測分類。

機器學習之KNN（k近鄰）演算法詳解

1-1 機器學習演算法分類一、基本分類： ①監督學習（Supervised learning）資料集中的每個樣本有相應的“正確答案”，根據這些樣本做出預測，分有兩類：迴歸問題和分類問題。步驟1：資料集的建立和分類步

機器學習之KNN（k近鄰）算法

target rom val zip 定義 stat 2-0 datasets tro 1、算法介紹k近鄰算法是學習機器學習的入門算法，可實現分類與回歸，屬於監督學習的一種。算法的工作原理是：輸入一個訓練數據集，訓練數據集包括特征空間的點和點的類別，可以是二分類或是多分類

【python與機器學習入門1】KNN（k近鄰）演算法2 手寫識別系統

參考部落格：超詳細的機器學習python入門knn乾貨（po主Jack-Cui 參考書籍：《機器學習實戰》——第二章 KNN入門第二彈——手寫識別系統demo ——《機器學習實戰》第二章2.3 手寫識別系統 &

機器學習實戰筆記（K近鄰）

最終而是類別頻率 n) 簡單因此當前要素 K近鄰算法（KNN） k近鄰算法 ??k近鄰(k-nearest neighbor,KNN)是一種基本的分類與回歸算法。於1968年由Cover和Hart提出。k近鄰的輸入是實例的特征向量，對應於特征空間的點；輸出為實

淺談knn（k近鄰）演算法

概述 K近鄰演算法是一種懶惰演算法，即沒有對資料集進行訓練的過程，其模型的三個要素：距離度量、k值的選擇和分類決策規則決定。 K近鄰的思想很簡單，即在一個數據集上，給定一個新樣本，找到與新樣本距離最近的k個例項，在這些例項中屬於多數的類即為這個新樣本的類。

KNN（k近鄰）演算法原理

原理：樣本點的特性與該鄰居點的特性類似，可以簡單理解為“物以類聚”。因此可以使用目標點的多個鄰近點的特性表示當前點的特性。2.KNN演算法包含：1、KNN分類演算法：“投票法”，選擇這k 個樣本中出現最多的類別標記作為預測結果；2、KNN迴歸演算法：“平均法”，將這k 個樣本

KNN（K近鄰）演算法的簡單入門

機器學習實戰（第二章：k-近鄰演算法）今天學習了第二章，在此就我理解做一下簡單的總結，算是加深我的理解和用我自己的語言描述出這個演算法吧。距離計算基於向量空間的歐幾里得距離的計算。（L2距離）特別情況下可採用Lp距離（明氏距離） L1距離。簡單點來說就是在一

步步學習之用python實戰機器學習1－kNN （K-NearestNeighbors）演算法（a）

我最近才開始接觸機器學習，我大學數學學的幾乎忘了，最近才接觸python。所以我以一個完全初學者角度來學習機器學習。我主要用的書籍就是machine learning in action （機器學習實戰）這本書。我主要是用文中已有的程式碼來講解機器學習。同時對程式碼進行

機器學習之路: python k近鄰分類器鳶尾花分類預測

ber AD uda classes them cal col rds esc 使用python語言學習k近鄰分類器的api 歡迎來到我的git查看源代碼: https://github.com/linyi0604/kaggle 1 from sklearn

機器學習之python（十六）

這次為什麼還有教一下python呢？這裡的教學是針對於機器學習中使用到的python的一些功能。我希望大家在看完之前的教程之後再看這些文章。教學還是在程式碼塊中進行註解，希望大家慢慢看慢慢的去理會。今天來學習python中的list、你們也可以參考廖雪峰大神的pyth

7、KNN（K近鄰）

KNN（K最近鄰演算法） 1、KNN行業應用：比如文字識別，面部識別；預測某人是否喜歡推薦電影（Netflix）；基因模式識別，比如用於檢測某中年疾病；客戶流失預測、欺詐偵測（更適合於稀有事件的分類問題） KNN應用場景：通常最近鄰分類器使用於特徵與目標類之間的關係為比較

Python 實現 KNN（K-近鄰）算法

動作 bsp operator sort 關於 png 如果 std labels 一、概述　　KNN（K-最近鄰）算法是相對比較簡單的機器學習算法之一，它主要用於對事物進行分類。用比較官方的話來說就是：給定一個訓練數據集，對新的輸入實例，在訓練數據集中找到與該實

KNN（K鄰近）演算法

k-鄰近演算法的一般流程收集資料：可以使用任何方法準備資料：距離計算（應該是計算距離）所需要的數值，最好是結構化的資料格式分析資料：可以使用任何方法訓練演算法：此步驟不適用與k-鄰近演算法測試演算法：計算錯誤率使用演算法：首先需要輸入樣本資料和

機器學習筆記九：K近鄰演算法（KNN）

一.基本思想 K近鄰演算法，即是給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的K個例項，這K個例項的多數屬於某個類，就把該輸入例項分類到這個類中。如下面的圖：通俗一點來說，就是找最“鄰近”的夥伴，通過這些夥伴的類別來看自己的類別

《機器學習實戰》——kNN（k近鄰演算法）

原作者寫的太好了，包括排版都特別整齊(其中有一個錯誤之處就是在約會網站配對效果判定的時候，列表順序不對，導致結果有誤，這裡我已做出修改）執行平臺： Windows Python版本： Python3.x IDE： Sublime text3一簡單k-近鄰演算法本文將

常見機器學習演算法學習——KNN（K鄰近）

1、演算法簡述文章中描述性內容，多來自維基百科KNN。 KNN（ k-nearest neighbors algorithm）是一種非引數、有監督演算法，由T. M. COVER, P. E. HART, Hart PE

Andrew Ng機器學習課程筆記（十二）之無監督學習之K-means聚類演算法

Preface Unsupervised Learning（無監督學習） K-means聚類演算法 Unsupervised Learning 我們以前介紹的所有演算法都是基於有類別標籤的資料集，當我們對於沒有標籤的資料進行分類時，以前的方

Python機器學習（基礎篇---監督學習（k近鄰））

print 隨機 targe n) sta 數據集訓練說明決策 K近鄰假設我們有一些攜帶分類標記的訓練樣本，分布於特征空間中，對於一個待分類的測試樣本點，未知其類別，按照‘近朱者赤近墨者黑’，我們需要尋找與這個待分類的樣本在特征空間中距離最

我的機器學習之旅（四）：回歸與工程應用

多個算法 ati function RR numpy pen 圖片 bsp 內容:線性回歸；邏輯回歸，應用場景。一、線性回歸有監督學習，根據學習樣本{x->y},學習一個映射f：X->Y(線性相關),輸出預測結果y_i。最簡單的例子：y=ax+b 重要組成

機器學習之KNN（k近鄰）演算法

相關推薦