機器學習-簡單的K最近鄰演算法及python實現

阿新 • • 發佈：2019-01-06

根據前人的成果進行了學習 https://www.cnblogs.com/ahu-lichang/p/7161613.html#commentform

1、演算法介紹

其實k最近鄰演算法算是聚類演算法中最淺顯易懂的一種了，考慮你有一堆二維資料，你想很簡單的把它分開，像下圖這樣分成四類

你當然可以選擇肉眼辨別，拿個鉛筆給它們分開，但是如果這些資料多到你一天都看不完呢？又或者在你辛苦了一天分類完畢後，突然發現你其實應該分成三類而不是四類的，得，重來吧。

雖然人工分類在我們看起來挺弱智的，但實際上k最近鄰演算法的核心思想就跟我們日常分類差不多。我們會自然而然的把“扎堆”的點分成一類，術語可以講，按照歐氏距離來分類，當我們考慮把這種想法用程式實現的時候，那就變成了k最近鄰演算法了。

2、演算法步驟

大概有以下幾點

1. 先按照你想分的類別數，隨機找幾個點作為每一類的中心點

2. 根據你採用的距離計算方式（歐氏距離、曼哈頓距離等），將所有點按照最近鄰的方式歸到這幾個中心點的類別中去

3. 分類完畢後，根據每一類的所有點，來重新計算一個新的中心點來替代上一次使用的中心點

4. 重複2,3，直到中心點不再變化，稱之為收斂的時候，就完成了分類

3、具體程式碼

下面按照2中的演算法步驟，採用python進行程式設計

1. 首先是生成k個隨機中心點，此次取4

def randCent(dataSet,k):
    ndim = array(dataSet).shape[1]
    # 初始化中心點陣列
    centsArray = zeros((k,ndim))
    # 這一步的操作是將初始隨機中心點的每個維度的值限定在資料點的維度值域之間，二維的話就是說中心點不會處在
    # 資料點組成的“域”之外
    for i in range(ndim):
        minIDim = min(array(dataSet)[:,i])
        maxIDim = max(array(dataSet)[:,i])
        rangeIDim = maxIDim-minIDim
        centsArray[:,i] = (minIDim + rangeIDim * random.rand(k, 1)).reshape(centsArray[:, i].shape)
    return centsArray

（我這裡由於個人對python及numpy包的運用不熟練，導致。。。很多操作可能看起來很麻煩，經過這次之後要去系統性的學習一下相關知識）

2. 這裡將步驟中的2,3,4合併為一個函式實現

採用歐氏距離作為判別標準，根據資料點與中心點的歐氏距離大小進行分類

計算歐氏距離的函式

def distEclud(vecA,vecB):
    return sqrt(sum(power(vecA-vecB,2)))

然後是主要的函式

def kMeans(dataSet,k):
    # 資料總量
    num = dataSet.shape[0]
    # 建立一個數組儲存每個點的類別和與對應中心點的歐氏距離
    clusterAssignmentArray = zeros((num,2))
    centsArray = randCent(dataSet,k)
    clusterChanged = True
    while clusterChanged:
        clusterChanged = False
        for i in range(num):
            minIndex = -1
            minDist = inf
            for j in range(k):
                diEclud = distEclud(dataSet[i],centsArray[j])
                if diEclud<minDist:
                    minDist = diEclud
                    minIndex = j
            if clusterAssignmentArray[i][0]!=minIndex:
                clusterAssignmentArray[i] = minIndex,minDist
                clusterChanged = True
        # 根據新的分類結果中每一類的資料點，重新計算每一類的中心點
        for centIndex in range(k):
            # 根據minIndex取出每一類的資料點進行計算
            ptrInClust = []
            for j in range(num):
                if clusterAssignmentArray[j][0]==centIndex:
                    ptrInClust.append(dataSet[j])
            centsArray[centIndex, :] = mean(ptrInClust, axis=0)
return centsArray,clusterAssignmentArray

3. 測試程式碼

if __name__ == "__main__":
    k = 4
    datMat = mat(loadDataSet('1.txt'))
    myCentroids, clustAssing = kMeans(datMat, k)

    x = []
    y = []
    x.append(((myCentroids[:, 0]).tolist()))
    y.append((myCentroids[:, 1]).tolist())
    # plt.plot(x[0], y[0], 'b*')
    plt.plot(((myCentroids[:, 0]).tolist()), (myCentroids[:, 1]).tolist(), 'k*')

    colourList = ['bo', 'ro', 'yo', 'co','ko']
    for i in range(k):
        centX = []
        centY = []
        for j in range(19):
            if clustAssing[j].tolist()[0] == i:
                centX.append(datMat[j].tolist()[0][0])
                centY.append(datMat[j].tolist()[0][1])
        plt.plot(centX, centY, colourList[i])
    plt.show()

最後，可以看到已經完成了分類，其中黑星代表中心點。當然，如果你多跑幾次，會發現。。。每次的結果未必一樣，這也是一個坑

4. 完整程式碼

https://github.com/ShenYuhan/ml-python/blob/master/knn_eclud.py

5. 資料，空格分割

1.658985 4.285136
-3.453687 3.424321
4.838138 -1.151539
-5.379713 -3.362104
0.972564 2.924086
-3.567919 1.531611
0.450614 -3.302219
-3.487105 -1.724432
2.668759 1.594842
-3.156485 3.191137
3.165506 -3.999838
-2.786837 -3.099354
4.208187 2.984927
-2.123337 2.943366
0.704199 -0.479481
-0.392370 -3.963704
2.831667 1.574018
-0.790153 3.343144
2.943496 -3.357075

機器學習-簡單的K最近鄰演算法及python實現

根據前人的成果進行了學習 https://www.cnblogs.com/ahu-lichang/p/7161613.html#commentform 1、演算法介紹其實k最近鄰演算法算是聚類演算法中最淺顯易懂的一種了，考慮你有一堆二維資料，你想很簡單的把它分開，像下圖這

機器學習之K-最近鄰規則分類(KNN)演算法

準備分為兩個部分，一個是理論，一個就是程式碼實現。程式碼也可以在我的GitHub上下載，後面有連結。一、理論知識相信我的筆記還是比較詳細的二、程式碼實現KNN演算法 1. 首先要生成一些資料集，以供訓練和測試我造的資料是關於通過身高

scikit-learn學習之K最近鄰演算法(KNN)

======================================================================本系列部落格主要參考 Scikit-Learn 官方網站上的每一個演算法進行，並進行部分翻譯，如有錯誤，請大家指正 ========

機器學習經典算法具體解釋及Python實現--線性回歸（Linear Regression）算法

ica single 方便最好的而且 == show des fun （一）認識回歸回歸是統計學中最有力的工具之中的一個。機器學習監督學習算法分為分類算法和回歸算法兩種，事實上就是依據類別標簽分布類型為離散型、連續性而定義的。顧名思義。分類算法用於離散型分布

機器學習演算法-K最近鄰從原理到實現（Python）

本來這篇文章是5月份寫的，今天修改了一下內容，就成今天發表的了，CSDN這是出BUG了還是什麼改規則了。。。引文：決策樹和基於規則的分類器都是積極學習方法（eager learner）的例子，因為一旦訓練資料可用，他們就開始學習從輸入屬性到類標號的對映模型。

機器學習（4）K最近鄰演算法

定義：根據最近的樣本決定測試樣本的類別。為了判斷未知例項的類別，以所有已知類別的例項作為參照選擇引數K 計算未知例項與所有已知例項的距離選擇最近K個已知例項根據少數服從多數的投票法則(majority-voting)，讓未知例項歸類為K個

《機器學習實戰》k最近鄰演算法(K-Nearest Neighbor,Python實現)

============================================================================================ 《機器學習實

K最近鄰演算法（K-NN）

K-NN是什麼？ K最近鄰演算法是一種簡單但目前最常用的分類演算法，也可用於迴歸。 KNN沒有引數（不對資料潛在分佈規律做任何假設），基於例項（不建立明確的模型，而是通過具體的訓練例項進行預測），用於監督學習中。 K-NN演算法怎麼工作？當用KNN進行分類時，

圖說十大資料探勘演算法(一)K最近鄰演算法

用官方的話來說，所謂K近鄰演算法，即是給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的K個例項（也就是上面所說的K個鄰居），這K個例項的多數屬於某個類，就把該輸入例項分類到這個類中。如果你之前沒有學習過K最近鄰演算法，那今天幾張圖，讓你明白什麼是K最近鄰

機器學習實戰——1.1K近鄰演算法

宣告：參考書目《機器學習實戰》作者: Peter Harrington 出版社: 人民郵電出版社譯者: 李銳 / 李鵬 / 曲亞東 / 王斌參考部落格 Jack-Cui 作者個人網站：http://cuijiahua.com/ 公式： K近鄰演算法的

python -- K最近鄰演算法

KNN核心演算法函式 #! /usr/bin/env python3 # -*- coding: utf-8 -*- # fileName ： KNNdistance.py # author : [email protected] import

K最近鄰演算法（KNN）---sklearn+python實現

def main(): import numpy as np from sklearn import datasets digits=datasets.load_digits() x=digits.data y=digits.target from sklear

KNN K最近鄰演算法

　　K Nearest Neighbor,KNN,K最近鄰演算法。　　演算法原理：　　　　(1)計算未知類別資料點與已知類別資

機器學習——感知器演算法及python實現

說明：本文從自己的理解出發來講解感知器是如何訓練的，如想知道比較學術的概念，請查閱相關論文。 1、什麼是感知器本文假設資料為：二維二類、線性可分感知器就是一個分類器，如：給兩類資料做訓練集A,B，訓練完成之後，給定一個測試資料，通過感知器，可以分成A或B。因為資料是二

K最近鄰演算法

設想你想了解一個陌生人的飲食風格，如果你對他所知無幾，那麼最容易想到的一個捷徑就是看看他生存的周圍人群的口味。但是如果你對他的資訊知道更多，例如知道他的年齡、收入等，那麼這個時候就最好從他周圍的人群中去挑選與他年齡、收入相近的人的飲食風格，這樣預測會更準確一點。這其中蘊含的

圖解演算法第10章 k最近鄰演算法

本章內容 k鄰近演算法建立分類系統學習特徵抽取學習迴歸學習k最近鄰居演算法的應用和侷限性 k最近鄰居 k-nearest neighbours KNN 特徵抽取座標軸中兩個點的距離：勾股定理 OCR圖書數字化提取線段，點，曲線等特徵。

資料探勘十大經典演算法之K最近鄰演算法

k-最近鄰演算法是基於例項的學習方法中最基本的，先介紹基於例項學習的相關概念。基於例項的學習 1.已知一系列的訓練樣例，很多學習方法為目標函式建立起明確的一般化描述；但與此不同，基於例項的學習方法只是簡單地把訓練樣例儲存起來。從這些例項中泛化

K最近鄰演算法（KNN）

K最近鄰 (k-Nearest Neighbors，KNN) 演算法是一種分類演算法，也是最簡單易懂的機器學習演算法，沒有之一。1968年由 Cover 和 Hart 提出，應用場景有字

利用Python實現k最近鄰演算法並識別手寫數字（詳細註釋）

K最近鄰(k-Nearest Neighbor，KNN)分類演算法，是一個理論上比較成熟的方法，也是較為簡單的機器學習演算法之一。該方法的思路是：如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別。K最近鄰

k最近鄰演算法(K-Nearest Neighbor)理解與python實現

numpy 模組參考教程：http://old.sebug.net/paper/books/scipydoc/index.html 一：什麼是KNN演算法？ kNN演算法全稱是k-最近鄰演算法（K-Nearest Neighbor） kNN演算法的核心思想是如果一個樣本在特

機器學習-簡單的K最近鄰演算法及python實現

相關推薦