KNN算法理解

阿新 • • 發佈：2018-08-06

應該常常基因 over 簡單性能標準算法思路加權

KNN算法理解

https://blog.csdn.net/class_brick/article/details/78748014

一、算法概述

1、kNN算法又稱為k近鄰分類(k-nearest neighbor classification)算法。最簡單平凡的分類器也許是那種死記硬背式的分類器，記住所有的訓練數據，對於新的數據則直接和訓練數據匹配，如果存在相同屬性的訓練數據，則直接用它的分類來作為新數據的分類。這種方式有一個明顯的缺點，那就是很可能無法找到完全匹配的訓練記錄。
kNN算法則是從訓練集中找到和新數據最接近的k條記錄，然後根據他們的主要分類來決定新數據的類別。該算法涉及3個主要因素：訓練集、距離或相似的衡量、k的大小。
2、代表論文 Discriminant Adaptive Nearest Neighbor Classification Trevor Hastie and Rolbert Tibshirani IEEE TRANSACTIONS ON PAITERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 18, NO. 6, JUNE 1996 http://www.stanford.edu/~hastie/Papers/dann_IEEE.pdf
3、行業應用客戶流失預測、欺詐偵測等（更適合於稀有事件的分類問題）
二、算法要點
1、指導思想 kNN算法的指導思想是“近朱者赤，近墨者黑”，由你的鄰居來推斷出你的類別。
計算步驟如下： 1）算距離：給定測試對象，計算它與訓練集中的每個對象的距離 2）找鄰居：圈定距離最近的k個訓練對象，作為測試對象的近鄰 3）做分類：根據這k個近鄰歸屬的主要類別，來對測試對象分類
2、距離或相似度的衡量什麽是合適的距離衡量？距離越近應該意味著這兩個點屬於一個分類的可能性越大。覺的距離衡量包括歐式距離、夾角余弦等。對於文本分類來說，使用余弦(cosine)來計算相似度就比歐式(Euclidean)距離更合適。
3、類別的判定投票決定：少數服從多數，近鄰中哪個類別的點最多就分為該類。加權投票法：根據距離的遠近，對近鄰的投票進行加權，距離越近則權重越大（權重為距離平方的倒數）
三、優缺點
1、優點簡單，易於理解，易於實現，無需估計參數，無需訓練適合對稀有事件進行分類（例如當流失率很低時，比如低於0.5%，構造流失預測模型）特別適合於多分類問題(multi-modal,對象具有多個類別標簽)，例如根據基因特征來判斷其功能分類，kNN比SVM的表現要好
2、缺點懶惰算法，對測試樣本分類時的計算量大，內存開銷大，評分慢可解釋性較差，無法給出決策樹那樣的規則。
四、常見問題
1、k值設定為多大？ k太小，分類結果易受噪聲點影響；k太大，近鄰中又可能包含太多的其它類別的點。（對距離加權，可以降低k值設定的影響） k值通常是采用交叉檢驗來確定（以k=1為基準）經驗規則：k一般低於訓練樣本數的平方根
2、類別如何判定最合適？投票法沒有考慮近鄰的距離的遠近，距離更近的近鄰也許更應該決定最終的分類，所以加權投票法更恰當一些。
3、如何選擇合適的距離衡量？高維度對距離衡量的影響：眾所周知當變量數越多，歐式距離的區分能力就越差。變量值域對距離的影響：值域越大的變量常常會在距離計算中占據主導作用，因此應先對變量進行標準化。
4、訓練樣本是否要一視同仁？在訓練集中，有些樣本可能是更值得依賴的。可以給不同的樣本施加不同的權重，加強依賴樣本的權重，降低不可信賴樣本的影響。
5、性能問題？ kNN是一種懶惰算法，平時不好好學習，考試（對測試樣本分類）時才臨陣磨槍（臨時去找k個近鄰）。懶惰的後果：構造模型很簡單，但在對測試樣本分類地的系統開銷大，因為要掃描全部訓練樣本並計算距離。已經有一些方法提高計算的效率，例如壓縮訓練樣本量等。
6、能否大幅減少訓練樣本量，同時又保持分類精度？濃縮技術(condensing) 編輯技術(editing)
參考：維基百科： http://zh.wikipedia.org/wiki/%E6%9C%80%E9%82%BB%E8%BF%91%E6%90%9C%E7%B4%A2 百度百科：http://baike.baidu.com/view/1485833.htm

KNN可以用於推薦：

這裏我們不用KNN來實現分類，我們使用KNN最原始的算法思路，即為每個內容尋找K個與其最相似的內容，並推薦給用戶。

轉自：http://blog.csdn.net/jmydream/article/details/8644004

KNN算法理解

應該常常基因 over 簡單性能標準算法思路加權 KNN算法理解 https://blog.csdn.net/class_brick/article/details/78748014 一、算法概述 1、kNN算法又稱為k近鄰分類(k-neare

KNN算法理解

KNN算法理解

KNN算法理解

非常好理解的KNN算法示例

KNN算法

PID 算法理解

Python 基於KNN算法的手寫識別系統

學習KNN算法體會和總結

Kmeans、Kmeans++和KNN算法比較

算法理解

python實現簡單knn算法

scikit-learn初步，一個KNN算法示例

人工智能我見及特征提取mfcc算法理解

分布式緩存一致性hash算法理解

KNN 算法，以及與Kmeans的簡單對比

Python實現KNN算法

KNN算法的代碼實現

運用kNN算法識別潛在續費商家

py4CV例子1貓狗大戰和Knn算法

day-9 sklearn庫和python自帶庫實現最近鄰KNN算法

使用KNN算法進行分類

編程英語之KNN算法

KNN算法理解

KNN算法理解

相關推薦