K近鄰（KNN）的Python實現

阿新 • • 發佈：2019-01-06

KNN

KNN almost has no training process.
At the very beginning, we can classify the test samples.
K used to be lower than sqrt(#sample), determined by CV.

程式碼：

# -*- coding -*-

import numpy as np 
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.model_selection import 
 train_test_split
import random
import math

def get_multi_data():
    n = 2000
    centers = [[-5,3],[1,3],[-3,-3]]
    X,y = make_blobs(centers = centers,n_samples = n,random_state=42)
    trans = [[0.4,0.2],[-0.4,1.2]]
    X = np.dot(X,trans) + np.random.rand(n,2)*2.5
    return X,y

class KNN:
    def 
 __init__(self,max_iter=10):
        self.max_iter = max_iter+0.0

    def fit(self,X,y,test_size=0.2):
        self.k = None
        self.vote_res = np.empty(np.unique(y).shape[0])
        upper = int(math.sqrt(X.shape[0]))
        step = upper/self.max_iter
        if abs(step-int(step)) > 0.01:
            step = int(upper/self.max_iter)+1 

        else:
            step = int(step)
        max_corr = 0.0; max_k = 0;
        for k in range(1,upper,step):
            print '------------- k =',k,' ------------'
            corr = self._fit_one(X,y,k,test_size)
            if max_corr < corr:
                max_corr = corr; max_k = k 
        print 'best k is ',max_k
        self.k = max_k

    def _fit_one(self,X,y,k,test_size):
        self.kk = k
        p = 0.0
        for i in range(0,int(1.0/test_size)):
            X_train,X_test,y_train,y_test = \
                train_test_split(X,y,test_size=test_size,random_state = np.random.RandomState(42))
            pred = self.predict(X_test,X_train,y_train)
            p += (1-np.mean(y_test!=pred))
        print p/int(1.0/test_size)
        return p/int(1.0/test_size)

    # predict X's class with training data
    def predict(self,X,X_,y_):
        k = self.k if self.k != None else self.kk
        # when training: choose [1,k+1], because dis[0]=0
        offset = 1 if self.k !=None else 0 
        dis = np.empty(X_.shape[0])
        pred = np.empty(X.shape[0])
        for i in range(X.shape[0]):
            x = X[i,:]
            for j in range(X_.shape[0]):
                dis[j] = self.cal_dis(x,X_[j,:])
            index = np.argsort(dis)[offset:k+offset]
            pred[i] = self.vote(y_[index])
        return pred


    def vote(self,res):
        self.vote_res.fill(0)
        for i in res:
            self.vote_res[i] += 1
        max_cnt = 0; max_index = -1
        for i in range(self.vote_res.shape[0]):
            if max_cnt < self.vote_res[i]:
                max_cnt = self.vote_res[i]
                max_index = i 
        return max_index


    def cal_dis(self,x1,x2):
        x = x1-x2
        return np.dot(x,x)

############### plot
def plot_samples(X,y):
    x_start = 0
    if np.mean(X[:,0])==1:
        x_start += 1
    c_lst = ['r','g','b','y']
    y_set = np.unique(y)
    color = np.array([c_lst[0]]*y.shape[0])
    for i in range(1,y_set.shape[0]):
        color[y==y_set[i]] = c_lst[i]
    plt.figure(figsize=(8,6))
    plt.scatter(X[:,x_start],X[:,x_start+1],c = color)


if __name__ == '__main__':
    X,y = get_multi_data()
    X = np.column_stack([[1]*X.shape[0],X])
    X_train,X_test,y_train,y_test = \
                train_test_split(X,y,test_size=0.2,random_state = np.random.RandomState(42))
    clf = KNN(10)
    clf.fit(X_train,y_train,0.25)
    y_pred = clf.predict(X_train,X_train,y_train)
    correct_rate = 1-np.mean(y_train!=y_pred)
    print 'train correct_rate:',correct_rate

    y_pred1 = clf.predict(X_test,X_train,y_train)
    correct_rate = 1-np.mean(y_test!=y_pred1)
    print 'test correct_rate:',correct_rate

    plot_samples(X_train,y_train)
    plot_samples(X_train,y_pred)
    plot_samples(X_test,y_test)
    plot_samples(X_test,y_pred1)
    plt.show()

Disadvantages

has no statistical estimates about error;
lazy-learning, requires much memory at running time;
computationally expensive

Therefore, KNN can just do some simple classification and handle low-dimension datasets.

Advantages

simple and easy-understanding
easy to realize
no need to estimate parameters
no training process
suitable for sparse events
suitable for multi-label classification

KNN can be used for recommendation.

K近鄰（KNN）演算法、KD樹及其python實現

1、k近鄰演算法 1.1 KNN基本思想 k近鄰法是基本且簡單的分類與迴歸方法，即對於輸入例項，依據給定的距離度量方式（歐式距離），以及選擇合適的k值（交叉驗證），在樣本集中找到最近鄰新例項的k個樣例，通過k個最近鄰樣例的類別表決出新例項的類別（多數表決）。

K近鄰（KNN）的Python實現

KNN KNN almost has no training process. At the very beginning, we can classify the test samples. K used to be lower than sqrt(#

基於TensorFlow的K近鄰（KNN）分類器實現——以MNIST為例

KNN分類原理 TF的KNN程式碼 def load_mnist_data(filename,isbatch=0,train_nums=1000,test_nums=200): from tensorflow.examples.

python機器學習-k近鄰（KNN）演算法例項

機器學習-k近鄰（KNN）本篇主要是自己複習和總結機器學習演算法中最基礎入門的——k近鄰（KNN）演算法，內容由網上百度與摘抄唐宇迪老師的講義。 k近鄰介紹 ——K最近鄰(k-Nearest Neighbor，KNN)，k近鄰演算法可以應用於分類場景與迴歸場

K-近鄰（KNN）算法

第三章不同 bin 挖掘特性訓練屬於博客建立　　K-近鄰算法（K-NN）　　鄰近算法，或者說K最近鄰(kNN，k-NearestNeighbor)分類算法是數據挖掘分類技術中最簡單的方法之一。所謂K最近鄰，就是k個最近的鄰居的意思，說的是每個樣本都可以用它最

機器學習之K-近鄰（KNN）算法

實戰 http created 以及 dex mda 問題可以轉化占比一 . K-近鄰算法（KNN）概述最簡單最初級的分類器是將全部的訓練數據所對應的類別都記錄下來，當測試對象的屬性和某個訓練對象的屬性完全匹配時，便可以對其進行分類。但是怎麽可能所有測

機器學習——K-近鄰（KNN）演算法

本文轉載自：https://www.cnblogs.com/ybjourney/p/4702562.html 一 . K-近鄰演算法（KNN）概述最簡單最初級的分類器是將全部的訓練資料所對應的類別都記錄下來，當測試物件的屬性和某個訓練物件的屬性完全匹配時，便可以對其進

K近鄰（KNN）演算法的學習

K近鄰演算法首先應該明白K近鄰演算法是一種分類演算法，這裡不作實際問題抽象成數學模型的解釋，只在數學方面來說明。背景已知一系列的資料點被分成了幾個類，現在有一個新的未知點，那麼該把這個未知點歸為哪一類呢？這就是K近鄰演算法來解決的問題。演算法在未知點附近

AI產品經理必懂演算法：k-近鄰（KNN）演算法

我們之所以要了解演算法，不僅僅有利於和演算法同學的溝通，更能深入的理解人工智慧為產品賦能的過程，只有將這個過程瞭解透徹，才能清晰明確的把握產品的方向，挖掘產品的亮點。那麼，今天我們就從一個最為簡單、易懂的“k-近鄰（KNN）演算法”聊起，KNN屬於監督學習演算法，即可以用於分類，也可以用於迴歸，後續還會逐

機器學習（一）——K-近鄰（KNN）演算法

#coding:utf-8 from numpy import * import operator from collections import Counter import matplotlib import matplotlib.pyplot as plt ###匯入特徵資料

使用K近鄰（KNN）對鳶尾花分類

KNN演算法的精髓在於近朱者赤近墨者黑，所以距離通過歐氏距離或者夾角餘弦來計算。他的主要計算步驟為： 1.算距離：給定測試物件，計算它與訓練集中的每個物件的距離 2.尋找鄰居：圈定距離最近的K個訓練物件，作為測試物件的近鄰。 3.做分類：根據這K個近鄰歸屬的主要類別，來

基於k近鄰（KNN）的手寫數字識別

作者：faaronzheng 轉載請註明出處！最近再看Machine Learning in Action. k近鄰演算法這一章節提供了不少例子，本著Talk is cheap的原則，我們用手寫數字識別來實際測試一下。簡單的介紹一下k近鄰演算法（KNN）：給定測試樣本

K最近鄰（KNN）

K最近鄰演算法 #K最近鄰演算法分辨手寫數字圖片 from sklearn.datasets import load_digits from sklearn.decomposition import PCA digits = load_digits() pca = PCA(n_compone

斯坦福CS231n專案實戰（一）：k最近鄰（kNN）分類演算法

k最近鄰分類（kNN，K Nearest neighbor)分類演算法是一種最簡單的分類器之一。在kNN演算法訓練過程中，它將所有訓練樣本的輸入和輸出label都儲存起來。測試過程中，計算測試樣本與每個訓練樣本的L1或L2距離，選取與測試樣本距離最近的前k個

（24）Python實現遞歸生成或者刪除一個文件目錄及文件

path 生成 std fun created elif ror spa else import os,errno #基本工具類 #①遞歸生成輸入的路徑下面的文件夾或文件 #②遞歸刪除輸入的路徑下面的文件夾及文件 ‘‘‘ param : dirPath return :

編譯原理實驗：實驗一簡單詞法分析程序設計（必修）(Python實現)

it is 括號 ali 鍵盤輸入優化沒有 mce constant 是否一、實驗目的了解詞法分析程序的基本構造原理，掌握詞法分析程序的手工構造方法。二、實驗內容 1、了解編譯程序的詞法分析過程。 2、根據PASCAL語言的說明語句形式，用手工方法構造一個對說明語

時間序列模式（ARIMA）---Python實現

dia 就會 ast 的確 ram 依次 play 銷售 ati 時間序列分析的主要目的是根據已有的歷史數據對未來進行預測。如餐飲銷售預測可以看做是基於時間序列的短期數據預測，預測的對象時具體菜品的銷售量。 1.時間序列算法：常見的時間序列模型; ?

作業（二）—python實現wc命令(未完待續)

output 努力結果 -o clas ati 符號字符數 ref Gitee地址：https://gitee.com/c1e4r/word-count(為什麽老師不讓我們用github) 0x00 前言好久沒發博客了，感覺自己的學習是有點偷懶了。這篇博客

程序與執行緒（2）- python實現多程序

python 實現多程序參考連結： https://morvanzhou.github.io/tutorials/python-basic/multiprocessing/ python中實現多程序的模組：multiprocessing 注意：在windows系統下

演算法研究（1）python實現經典排序演算法並可視化分析複雜度

排序演算法在演算法界是一個怎麼樣的存在？就好像在學術界中數學的地位，說直接用好像用不上，可是不會做起事情來總會捉襟見肘，左支右絀。找工作的時候，有的面試官甚至會讓我們手寫排序演算法。既然排序演算法如此重要，就讓我們一起去夯實基礎，切切實實得掌握它吧。前言

K近鄰（KNN）的Python實現

Disadvantages

Advantages

相關推薦