K--最鄰近（K-NN）演算法

阿新 • • 發佈：2018-12-16

程式碼整理：

# -*- coding: utf-8 -*

import numpy as np
import matplotlib.pyplot as plt

from collections import Counter

def dist(A,B):
    a = np.asarray(A)
    b = np.asarray(B)
    a = a.ravel()
    b = b.ravel()
    d = a-b
    return np.linalg.norm(d)

def cosSim(A,B):
    a = np.asarray(A)
    b = np.asarray(B)
    a = a.ravel()
    b = b.ravel()
    d1 = np.dot(a,b)
    d2 = np.linalg.norm(a)*np.linalg.norm(b)
    return d1/d2
    
    
#K_NN函式定義：
#data表示測試資料
#predict表示待測試樣本
#k表示k_nn中的k值
#distfun表示選擇的距離
def k_nn_test(data,predict,k=3,distfun=dist):
    if len(data) >= k:
        print('K is set to a value less than total voting groups!')
    
    distances = []
    for group in data:
        for features in data[group]:
            #計算每個樣本與測試樣本之間的距離，採用distfun距離演算法
            test_distance = distfun(features,predict)
            #將距離以及類別組成列表存入distances中
            distances.append([test_distance,group])
#     print(distances)
            
    #i[0]為距離，i[1]為類別，我們需要的是類別
    #取按照distances列表進行排序後的0到k-1個值
    votes = [i[1] for i in sorted(distances)[:k] ]
    #使用collections.Counter類來統計跟蹤的值出現的次數
    #most_common()：取元素次數最多的前1個也就是那個多數派
    vote_result = Counter(votes).most_common(1)[0][0]
    return vote_result

if __name__ == '__main__':
    dataset = {'k':[[1,3],[2,4],[2,1]],'r':[[6,3],[7,7],[5,6]]}
    new_features = [4,4]
    #dataset(資料集)只是一個python字典，其中的鍵看作類，後面的值看作這個類相關的資料點
    #new_features是將要預測其所屬類的點
    #我們可以做一個快速圖表
            
    for i in dataset:
        for i2 in dataset[i]:
            plt.scatter(i2[0],i2[1],s=100,color=i)
            
    plt.scatter(new_features[0],new_features[1],s=100)
    plt.show()
    
    result = k_nn_test(dataset,new_features)
    plt.scatter(new_features[0],new_features[1],s=100,color=result)
    plt.show()

def loadImage(filename,fsize=40):
    from PIL import Image
    
    image = Image.open(filename)
    img1 = image.resize((fsize,fsize))
    image.close()
    img = np.asarray(img1)
    img1.close()
    x = img.ravel()  #將陣列降為一維
    return x          #x是一張圖片生成的一個向量


def loadDataset():   
    import os
    Ylab = [chr(i+ord('A')) for i in range(26)]  # Y是A到Z，26個字母構成的列表
    fsize = 40
    X = []
    Y = []
    for ypath in Ylab:
        #下面，最後需要[0]的作用是去掉了一層列表符號
        pngfiles = [ dirs[2]  for dirs in os.walk('/Users/he-jia/English_hand_writing/Img/daxie/'+ypath)][0]    # pngfiles是資料夾A下面所有訓練圖片的檔名構成的列表
        for file in pngfiles:    #針對每一個A的訓練圖片
            if not (file.endswith('.png') or file.endswith('.PNG') ):  #如果不是png檔案可以跳過
                continue
            x = loadImage('/Users/he-jia/English_hand_writing/Img/daxie/'+ypath+'/'+file,fsize)    # loadImage函式用於將每一個測試圖片生成一個行向量
            X.append(x)   # X是一個列表
            Y.append(ypath)
    return np.mat(X),np.asarray(Y) 
#這兩個函式都是將列表矩陣化，
#當A資料夾裡的訓練圖片被遍歷後，X1=np.mat(X)最終是個55行4800列的矩陣，X1 是個二維矩陣，Y1 =np.asarry(Y)是由一個列向量構成的矩陣，26行1列
# 55*26 =1430,當A到Z資料夾裡的訓練圖片都被遍歷之後，X1=np.mat(X)最終是個1430行4800列的矩陣，Y1 =np.asarry(Y)是由一個列向量構成的矩陣，1430行1列


import sklearn.neighbors as knnlib
import datetime
begin = datetime.datetime.now()
print(begin)
print('------------------------')

#訓練分類器
testx =  loadImage('/Users/he-jia/English_hand_writing/test.png')
charX,charY = loadDataset()   #charX,charY 是兩個矩陣，一個1430行4800列，一個26行1列
k = int(np.sqrt(len(charY)))  #k為樣本數量開方
knn = knnlib.KNeighborsClassifier(algorithm = 'ball_tree',n_neighbors=k,weights='distance',p=1) 
#建立knn分類器
#四個引數含義：量度距離，以曼哈頓距離演算法，k個近鄰，約等按球樹
print(charX.shape)
print(charY.shape)
knn = knn.fit(charX,charY) #訓練knn模型
testx = np.mat(testx)
y = knn.predict(testx)    #測試預測樣本，先要轉為矩陣
print('測試圖片結果為：',y)


print('------------------------')
end = datetime.datetime.now()
print(end)

K--最鄰近（K-NN）演算法

程式碼整理： # -*- coding: utf-8 -* import numpy as np import matplotlib.pyplot as plt from collections import Counter def dist(A,B):

《演算法圖解》第10章 K最近鄰（K nearest neighbors,KNN）演算法

今天看到這裡的案例非常有意思，即以座標軸中的座標來作為引數。計算不同點的距離。實際上就是標記一些使用者的喜好和習慣，不同的維度代表不同的專案，在這個維度上的值可表示喜好程度。電影評分、音樂收藏...總之，很多情況都可以用，很有趣。就是標記了很多使用者，看哪些使

KNN-K最近鄰（k-NearestNeighbor)分類演算法

參考：https://baike.baidu.com/item/鄰近演算法/1151153?fr=aladdin&fromid=3479559&fromtitle=knn https://www.cnblogs.com/ybjourney/p/4702562

KNN（K最鄰近）演算法

kNN演算法簡介： kNN(k Nearest Neighbors)演算法又叫k最臨近方法，總體來說kNN演算法是相對比較容易理解的演算法之一，假設每一個類包含多個樣本資料，而且每個資料都有一個唯一的類標記表示這些樣本是屬於哪一個分類， kNN就是計算每個樣本資料到待分類資料的距離，取和待分類資料最近的

一文搞懂k近鄰（k-NN）演算法（一）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

斯坦福CS231n專案實戰（一）：k最近鄰（kNN）分類演算法

k最近鄰分類（kNN，K Nearest neighbor)分類演算法是一種最簡單的分類器之一。在kNN演算法訓練過程中，它將所有訓練樣本的輸入和輸出label都儲存起來。測試過程中，計算測試樣本與每個訓練樣本的L1或L2距離，選取與測試樣本距離最近的前k個

機器學習系列：k 近鄰法（k-NN）的原理及實現

本內容將介紹機器學習中的 k k k 近鄰法（

K最近鄰（KNN）

K最近鄰演算法 #K最近鄰演算法分辨手寫數字圖片 from sklearn.datasets import load_digits from sklearn.decomposition import PCA digits = load_digits() pca = PCA(n_compone

演算法設計與分析：K-Similar Strings（Week 5）

學號：16340008 Question: Strings A and B are K-similar (for some non-negative integer K) if we can swap the positions of two letters in A

牛客網《劍指Offer》程式設計 29. 最小的k個元素（使用堆）

題目描述輸入n個整數，找出其中最小的K個數。例如輸入4,5,1,6,2,7,3,8這8個數字，則最小的4個數字是1,2,3,4,。解題思路本題可以構建一個size為k的最大堆進行求解。遍歷陣列。當堆中元素總量小於k的時候，將當前元素放入堆；當堆中元素總

sklearn k最鄰近演算法

1、介紹 k最鄰近演算法可以說是一個非常經典而且原理十分容易理解的演算法，可以應用於分類和聚合。優點： 1、簡單，易於理解，易於實現，無需估計引數，無需訓練； 2、適合對稀有事件進行分類； 3、特別適合於多分

k最鄰近演算法——加權kNN

加權kNN 　　上篇文章中提到為每個點的距離增加一個權重，使得距離近的點可以得到更大的權重，在此描述如何加權。反函式　　該方法最簡單的形式是返回距離的倒數，比如距離d，權重1/d。有時候，完全一樣或非常接近的商品權重會很大甚至無窮大。基於這樣的原因，在距離求倒數時，在距

k最鄰近演算法-KNN，及python3 例項程式碼

剛讀了《machine learning in action》的KNN演算法。 K最近鄰演算法（kNN，k-NearestNeighbo），即計算到每個樣本的距離，選取前k個。從前k個選擇出大多數屬於的class來進行分類，以下特點： 1. 簡單，無需訓練 2. 樣本數量不

Note cs231n影象分類K最鄰近演算法

注：所有筆記內容均來自cs231n學習視訊,部分英文是因為中文翻譯太繞口最簡單的分類器：Nearest Neighbor（最臨近演算法）訓練階段：記住所有的訓練資料和標籤（什麼也不做）預測階段：take new image and go to try to find the

POJ 2104 K-th Number（主席樹）

ber sca first n) 次數 example == scan sorted K-th Number Time Limit: 20000MS Memory Limit: 65536K Total Submissions: 5742

HDU 5787 K-wolf Number（數位dp）

blog typedef turn pan con target ack cnblogs freopen http://acm.split.hdu.edu.cn/showproblem.php?pid=5787 題意：給出一個範圍[l,r]和整數k，求出在該範圍的數在十進

ALGO-3 K好數（動態規劃）

con 正整數 const 方程自然自然數 include 由於 can 問題描述如果一個自然數N的K進制表示中任意的相鄰的兩位都不是相鄰的數字，那麽我們就說這個數是K好數。求L位K進制數中K好數的數目。例如K = 4，L = 2的時候，所有K好數為11、13、20

BZOJ 3110 [Zjoi2013]K大數查詢（整體二分）

題解 gre void 有關 pre \n str k大數查詢如果 3110: [Zjoi2013]K大數查詢 Time Limit: 20 Sec Memory Limit: 512 MBSubmit: 11654 Solved: 3505[Submit][Sta

機器學習實戰（一）k-近鄰kNN（k-Nearest Neighbor）

目錄 0. 前言 1. k-近鄰演算法kNN（k-Nearest Neighbor） 2. 實戰案例 2.1. 簡單案例 2.2. 約會網站案例 2.3. 手寫識別案例學習完機器學習實戰的k-近鄰演算法，簡單的做個筆記。文中

分類：K最鄰近分類

最鄰近分類是分類方法中比較簡單的一種，下面對其進行介紹 1.任務分類 2.結構 &nbs

K--最鄰近（K-NN）演算法

相關推薦