機器學習-最近鄰（KNN，RNN）

阿新 • • 發佈：2019-01-11

最近鄰

概述

基於最近鄰的監督學習方法分兩類：分類，針對的是具有離散標籤的資料;迴歸，針對的是具有連續標籤的資料基於最近鄰的無監督學習方法用於聚類分析。

最近鄰方法原理是從訓練樣本中找到與查詢點在距離上最近的預定數量或範圍的多個點，然後依據這些點來預測查詢點的標籤。從訓練樣本中找出點的數量可以是使用者定義的常量，這叫ķ最近鄰學習即KNN，也可以通過使用者定義的查詢點的距離半徑範圍得出，這叫基於半徑的最近鄰學習即RNN。

資料之間的距離可以理解為資料之間的相似度。距離可以通過多種方式來度量，如歐幾里得距離，曼哈頓距離等。標準歐幾里得是最常見的選擇。

最近鄰學習方法稱為非泛化機器學習方法，因為只是簡單的“記住”了其所有的訓練資料，死記硬背下所有歷史資料，在新資料面前就與所有的歷史資料比較從而找出最相似的歷史資料。而泛化的機器學習方法在給定的樣本資料進行訓練之後會形成概念模型，在新資料面前則依據概念模型直接推導計算得出結論。

無監督最近鄰

無監督最近鄰的任務就是從訓練樣本中找到與查詢點在距離上最近的預定數量或範圍的多個點。需要找出點的個數可以是使用者定義的常量，這叫ķ最近鄰即KNN ，也可以通過使用者定義的新點的距離半徑範圍得出，這叫基於半徑的最近鄰即RNN。

KNN無監督最近鄰示例

import numpy as np
import matplotlib.pyplot as plt
from sklearn import neighbors

# random the data as the training data
x = 5 * np.random.random((50, 2))
y = np.array([[1, 3], [4, 2]])

# knn
n_neighbors = 5

# create color maps
from matplotlib.colors import ListedColormap
cmap_bold = ListedColormap(['#FF0000', '#00FF00', '#0000FF'])

# fit the training data
from sklearn.neighbors import NearestNeighbors
nbrs = NearestNeighbors(n_neighbors = n_neighbors, algorithm = 'auto');
nbrs.fit(x)

# get the nearest neighbors
distances, indices = nbrs.kneighbors(y)
print "distance:",distances
print "indices:",indices

# get the selection of nearest neighbors
selected = nbrs.kneighbors_graph(y).toarray()
print "selected:",selected

# plot the point
plt.plot(y[:,0], y[:,1], 'g+')

# plot the area
t = np.linspace(0, np.pi * 2, 50)
x_t = np.cos(t)
y_t = np.sin(t)
for i in range(y.shape[0]) :
    plt.plot(x_t * distances[i, -1] + y[i, 0], y_t * distances[i, -1] + y[i, 1])

#  all selected
selected = selected[0, :].astype(np.bool) | selected[1, :].astype(np.bool)
selected = selected.astype(np.int32)

# plot the selection
plt.scatter(x[:, 0], x[:, 1], c = selected, cmap = cmap_bold, edgecolor = 'k', s = 20)

plt.show()

RNN無監督最近鄰示例：

import numpy as np
import matplotlib.pyplot as plt
from sklearn import neighbors

# random the data as the training data
x = 5 * np.random.random((50, 2))
y = np.array([[1, 3], [4, 2]])

# rnn
n_radius = 1

# create color maps
from matplotlib.colors import ListedColormap
cmap_bold = ListedColormap(['#FF0000', '#00FF00', '#0000FF'])

# fit the training data
from sklearn.neighbors import NearestNeighbors
nbrs = NearestNeighbors(radius  = n_radius, algorithm = 'auto');
nbrs.fit(x)

# get the nearest neighbors
distances, indices = nbrs.radius_neighbors(y)
print "distance:",distances
print "indices:",indices

# get the selection of nearest neighbors
selected = nbrs.radius_neighbors_graph(y).toarray()
print "selected:",selected

# plot the point
plt.plot(y[:,0], y[:,1], 'g+')

# plot the area
t = np.linspace(0, np.pi * 2, 50)
x_t = np.cos(t)
y_t = np.sin(t)
for i in range(y.shape[0]) :
    plt.plot(x_t * n_radius + y[i, 0], y_t * n_radius + y[i, 1])

#  all selected
selected = selected[0, :].astype(np.bool) | selected[1, :].astype(np.bool)
selected = selected.astype(np.int32)

# plot the selection
plt.scatter(x[:, 0], x[:, 1], c = selected, cmap = cmap_bold, edgecolor = 'k', s = 20)

plt.show()

最近鄰演算法

無論無監督最近鄰，還是最近鄰分類或者最近鄰迴歸，最為核心的是如何計算訓練樣本中與查詢點距離最近的多個點。最為直接的方法是求解查詢點與訓練樣本中每一個點的距離，根據距離大小取距離最鄰近的多個點即可，這種最鄰近演算法為暴力方法（蠻力）。

對於d維的Ñ個樣本資料來說，這個方法的複雜度是-O [d * N ^ 2]，對於小資料樣本來說，暴力最近鄰是非常不錯的。當樣本數Ñ增大，暴力最近鄰變得不切實際了，甚至不可行。

樹方法是一種優化的最近鄰計算方法。其基於樹的資料結構試圖通過有效的編碼樣本的聚合距離資訊來減少所需的距離計算量。基本思想是，若甲點距離乙點非常遠，乙點距離ç點非常近，可知甲點與ç點距離也非常遠，不需要明確計算阿與ç點之間的距離。通過這種方式，最近鄰計算複雜度可以降低為-O [d * N *log（N）]。在大樣本資料下，相對於暴力最鄰近計算有顯著改善。

目前樹方法有KD樹方法和Ball樹方法，KD樹在資料維度較低情況下表現優異，而Ball tree方法則在高維度資料情況下表現優異。

機器學習-最近鄰（KNN，RNN）

最近鄰

概述

無監督最近鄰

KNN無監督最近鄰示例

RNN無監督最近鄰示例：

最近鄰分類

KNN最近鄰分類示例：

RNN最近鄰分類示例

最近鄰迴歸

KNN最近鄰迴歸示例：

最近鄰演算法

機器學習-最近鄰（KNN，RNN）

機器學習——K-近鄰（KNN）演算法

python機器學習-k近鄰（KNN）演算法例項

機器學習實戰一（kNN）

K最近鄰（KNN）

機器學習-最近鄰示例

斯坦福CS231n專案實戰（一）：k最近鄰（kNN）分類演算法

機器學習之Validation（驗證，模型選擇）

初識機器學習-理論篇（慕課筆記）

MySQL學習筆記05（redis，mongoDB）

【機器學習】LDA（線性判別分析）或fisher判別分析

機器學習面試總結（第三篇）

DeepLearning基礎學習筆記三（KNN鄰近演算法）

Tensorflow MNIST機器學習入門程式碼（直接編譯執行）

機器學習實戰——SVD（奇異值分解）

Python入門學習筆記————06（函式，列）

【機器學習】LFM（Latent Factor Model）

模式識別/機器學習百題（含大部分答案）

機器學習常用演算法（LDA,CNN,LR）原理簡述

機器學習實戰——PCA（主成分分析）

機器學習-最近鄰（KNN，RNN）

最近鄰

概述

無監督最近鄰

KNN無監督最近鄰示例

RNN無監督最近鄰示例：

最近鄰分類

KNN最近鄰分類示例：

RNN最近鄰分類示例

最近鄰迴歸

KNN最近鄰迴歸示例：

最近鄰演算法

相關推薦