KNN分類演算法及改進

阿新 • • 發佈：2019-02-15

k近鄰演算法是一種基於例項的演算法，即學習過程只是簡單的儲存已知的訓練資料，遇到新的查詢例項時，從訓練集中取出相似的例項，因此它是一種懶惰(lazy)學習方法。可以為不同的待分類查詢例項建立不同的目標函式進行逼近。

k近鄰演算法原理：

令D為訓練資料集，當測試集d出現時，將d與D中所有的樣本進行比較，計算他們之間的相似度（或者距離）。從D中選出前k個最相似的樣本，則d的類別由k個最近鄰的樣本中出現最多的類別決定。

k近鄰演算法關鍵部分是距離（相似度）函式，對於關係型資料，經常使用歐氏距離，對於文字資料，經常採用餘弦相似度。k的選擇是通過在訓練集上交叉檢驗，交叉驗證一般分為三類：double-fold CV即經常所說的2折交叉；10-fold交叉和LOO（leave one out）CV即留一法交叉。

參考http://blog.163.com/[email protected]/blog/static/1194684712011113085410814/

2折：將原始資料集DataSet均分為兩份：一份作為訓練集，即trainingSet，一份作為測試集，即testingSet，然後用訓練集去做訓練，用測試集去驗證；之後再將訓練集作為測試集，測試集作為訓練集進行迭代一次，將兩次所得的誤差經行處理作為總體資料的預測誤差。（注：這裡強調一點，就是資料集一定要均分為兩份，理由是：作為訓練集，資料量一定要不小於測試集，所以在迭代的過程中，使得資料不出現錯誤情況，必須均分。）

K-折：（在這裡說下K-折）是在將資料集分成K個子集，K個子集中得一個作為測試集，而其餘的K-1個數據集作為訓練集，最後對K個數據子集的錯誤計算均值，K次迭代驗證是對監督學習演算法的結果進行評估的方法，資料集的劃分一般採用等均分或者隨機劃分。【來自邵峰晶等編著《資料探勘原理與演算法》中國水利水電出版社】

LOO：這個方法是K折的一種特列，就是把資料分為N份，其實每一份都是一個樣本，這樣迭代N次，計算最後的誤差來作為預測誤差。

k近鄰的問題：

k近鄰簡單直接，有效，健壯，在很多情況下可以和複雜的演算法效能相同。但是k近鄰有三個缺點：

（1）需要更精確的距離函式代替歐氏距離

（2）搜尋一個最優的近鄰大小代替k

（3）找出更精確的類別概率估計代替簡單的投票方法。

針對上述三種問題，提出了三中改進思路：

1.改進距離函式

由於它基於假設測試例項在歐式空間中最相似於近鄰的例項的類別。由於例項間距離計算基於例項的所有屬性，然而我們搜尋的是例項包括不相關屬性，標準的歐氏距離將會變得不準確。當出現許多不相關屬性時稱為維數災難，kNN對此特別敏感。

解決方法：（1）消除不相關屬性即特徵選擇。Kohavietal提出了一種纏繞法(wrapper)除此外還有貪婪搜尋和遺傳搜尋。

（2）屬性加權。w是屬性a的權重

‘

當所有的屬性不均衡時，屬性加權距離函式定義為

Ip (Ai;C)是屬性A和類別C的互資訊

除此之外，還有一種基於頻率的距離函式，稱之為相異性度量。與卡方距離相似

值差分度量（VDM）是標稱屬性的距離函式

C是輸出的類別數量，P是輸入屬性A時輸出C的條件概率，VDM在度量連續屬性時需要將連續屬性對映為標稱屬性

2.改進近鄰距離大小

KNN分類準確率對K值敏感，通過交叉驗證方法確定最優的K值。一旦在訓練時學習了最優的K值，可以在分類時對所有的測試集使用。DKNN即動態確定K值，所有的演算法都需要確定K近鄰，為此，在KDTree和NBTree中，例項儲存在葉節點上，鄰近例項儲存在相同或者相近的葉節點上。樹的內部節點通過測試選擇屬性的相關性對測試例項進行排序

3.改進類別概率估計

KNN的例項鄰近的類別被認為相同。所以改進演算法需要根據他們到測試例項的距離進行加權。

另外一種非常有效的方法是基於概率的區域性分類模型，即結合NB演算法，這種演算法在資料較小的時候表現很好。有研究者發現保持緊鄰k很小將減少對於NB強依賴的機會，然而NB的類別估計概率不可信。

KNN分類演算法及改進

KNN分類演算法及改進

KNN分類演算法及MATLAB程式與結果

Hadoop/MapReduce 及 Spark KNN分類演算法實現

基於KNN分類演算法手寫數字識別的實現（二）——構建KD樹

AI工程師成長之路-KNN分類演算法實現

【分類】KNN分類演算法之Python實現

sklearn學習筆記之knn分類演算法

KNN分類演算法原理及其Matlab實現

KNN分類演算法java實現

機器學習演算法（二）——決策樹分類演算法及R語言實現方法

KNN分類演算法實現By Java

從零開始實現KNN分類演算法

用Python開始機器學習（4：KNN分類演算法） sklearn做KNN演算法 python

kNN分類演算法的Python實現

文字挖掘——基於TF-IDF的KNN分類演算法實現

【機器學習實戰】—KNN分類演算法

Python機器學習實戰kNN分類演算法

機器學習-KNN分類演算法Iris例項

機器學習實戰之KNN分類演算法

KNN分類演算法優缺點

KNN分類演算法及改進

相關推薦