機器學習演算法小整理之KNN

阿新 • • 發佈：2019-01-07

1、工作原理：

存在一個樣本資料集合（訓練樣本集）且樣本集中每個資料都存在標籤（樣本集中每一資料與所屬分類的對應關係）。輸入沒有標籤的新資料後，將新資料的每個特徵與樣本集中資料對應的特徵進行比較，提取樣本集中特徵最相似資料（最近鄰）的分類標籤。一般只選擇樣本資料集中前K個最相似的資料，選擇k個最相似資料中出現次數最多的分類作為新資料的分類。

2、工作流程：

（1）計算已知類別的資料集中的點與當前點之間的距離；

（2）按照距離遞增順序排序；

（3）選取與當前點距離最小的k個點；

（4）確定前k個點所在類別的出現頻率；

（5）返回前k個點出現頻率最高的類別作為當前點的預測類別。

3、基本要素：

（1）距離度量

（2）k值的選擇

1）k越小模型越複雜，用較小的鄰域中的訓練例項進行預測，只有與輸入例項較近的訓練例項才會對預測結果起作用，預測結果會對近鄰的例項點非常敏感；

2）k越大模型越簡單，用較大的鄰域中的訓練例項進行預測，與輸入例項較遠的訓練例項也會對預測結果起作用，易使預測發生錯誤；

3）在應用中，k值一般取一個比較小的數值，k通常會在3～10直接取值，或者是k等於訓練資料的平方根。通常採用交叉驗證法來選取最優的k值。

（3）分類決策規則

1）多數表決：少數服從多數，近鄰中哪個類別的點最多就分為該類。（經驗風險最小化）

2）加權投票：根據距離的遠近，對近鄰的投票進行加權，距離越近則權重越大（權重為距離平方的倒數）。

4、演算法特點：

“近朱者赤，近墨者黑”

優點：

（1）簡單，易於實現，無需訓練；

（2）精度高；

（3）無資料輸入假定（對資料分佈沒有假設）；

（4）對異常值不敏感，個別噪音資料對結果的影響不是很大；

（5）適合對稀有事件進行分類；

（6）適用於多分類問題；

（7）不僅可以用於分類，還可以用於迴歸。通過找出一個樣本的k個最近鄰居，將這些鄰居的屬性的平均值賦給該樣本，就可以得到該樣本的屬性。

缺點：

（1）計算複雜度高，必須對資料集中每個資料計算距離；

（2）空間複雜度高，必須儲存全部資料集；

（3）對標稱特徵以及缺少資料需要預先處理；

（3）可解釋性差，無法告訴你哪個變數更重要，無法給出決策樹那樣的規則（沒有模型輸出，限制了對特徵間關係的理解）；

（4）樣本不均衡問題，當樣本不平衡時，如一個類的樣本容量很大，而其他類樣本容量很小時，有可能導致當輸入一個新樣本時，該樣本的K個鄰居中大容量類的

樣本佔多數。

5、優化方法：

距離加權：可以降低k值設定的影響。將不同距離的鄰居對該樣本產生的影響給予不同的權值(weight)，如權值與距離成正比。

降維或使用其他距離計算工具：變數數越多，歐式距離的區分能力就越差。

對變數進行標準化：值域越大的變數常常會在距離計算中佔據主導作用。

加權投票：多數表決沒有考慮近鄰的距離的遠近，距離更近的近鄰也許更應該決定最終的分類。

樣本加權：在訓練集中，有些樣本可能是更值得依賴的。可以給不同的樣本施加不同的權重，加強依賴樣本的權重，降低不可信賴樣本的影響。

壓縮訓練樣本量：提高計算的效率，雖然構造模型簡單，但掃描全部訓練樣本並計算距離的系統開銷很大。

kd樹：一種便於對k維空間中的資料進行快速檢索的資料結構。利用kd樹可以省去對大部分資料點的搜尋，從而減少搜尋的計算量。

6、使用演算法：

（1）輸入樣本資料和結構化的輸出結果；

（2）執行KNN判定輸入資料分別屬於哪個分類；

（3）對計算出的分類執行後序處理。

7、應用場景：

通常最近鄰分類器使用於特徵與目標類之間的關係為比較複雜的數字型別，或者說二者關係難以理解，但是相似類間特徵總是相似。

客戶流失預測、欺詐偵測等。

機器學習演算法小整理之KNN

1、工作原理：存在一個樣本資料集合（訓練樣本集）且樣本集中每個資料都存在標籤（樣本集中每一資料與所屬分類的對應關係）。輸入沒有標籤的新資料後，將新資料的每個特徵與樣本集中資料對應的特徵進行比較，提取樣本集中特徵最相似資料（最近鄰）的分類標籤。一般只選擇樣本資料集中前K個最

【機器學習演算法-python實現】KNN-k近鄰演算法的實現（附原始碼）

下載地址 kNN演算法及例項原始碼實現#coding=utf-8 ''' Created on Sep 16, 2010 kNN: k Nearest Neighbors Input: inX: vector to compare to existing dataset (1xN)

簡單易學的機器學習演算法——神經網路之BP神經網路

%% BP的主函式 % 清空 clear all; clc; % 匯入資料 load data; %從1到2000間隨機排序 k=rand(1,2000); [m,n]=sort(k); %輸入輸出資料 input=data(:,2:25); output1 =data(:,1); %把輸出從1維變

機器學習演算法之KNN

1、基本思想物以類聚、人以群分，一個例項與它周圍的例項屬於同一類的概率較大。 2、演算法給定一個訓練資料集，對新輸入的例項，在訓練資料集中找到與該例項最鄰近的k個例項，這k個例項的多數屬於某個類，就

機器學習筆記之八—— knn-最簡單的機器學習演算法以及KD樹原理

上一節結束了線性迴歸、邏輯迴歸，今天一節來介紹機器學習中最簡單的演算法： K近鄰（KNN，全稱K-nearst Neighbor）概述：判斷一個樣本的label只需要判斷該樣本週圍其他樣本的label。簡言之，朋

十大機器學習演算法之KNN（用於信用風險）

k-Nearest Neighbor(簡稱KNN)是“懶惰學習”的代表，此類技術在訓練階段僅僅是將訓練樣本儲存起來，不會去構造一個泛化的內部模型，即訓練開銷為零，帶收到測試集時再進行處理，與之對應的是“急切學習”。演算法原理：對給定的測試樣本，基於某種距離

機器學習之路--機器學習演算法一覽，應用建議與解決思路

常見機器學習演算法學習——KNN（K鄰近）

1、演算法簡述文章中描述性內容，多來自維基百科KNN。 KNN（ k-nearest neighbors algorithm）是一種非引數、有監督演算法，由T. M. COVER, P. E. HART, Hart PE

機器學習演算法實現解析——liblbfgs之L-BFGS演算法

在博文“優化演算法——擬牛頓法之L-BFGS演算法”中，已經對L-BFGS的演算法原理做了詳細的介紹，本文主要就開原始碼liblbfgs重新回顧L-BFGS的演算法原理以及具體的實現過程，在L-BFGS演算法中包含了處理L1正則的OWL-QN演算法，對於OWL-QN演算法的詳細原理，可以參見

系統學習機器學習之總結（二）--機器學習演算法比較

轉自：https://blog.csdn.net/bryan__/article/details/52026214 其實這篇文章真正出處來自：csuldw 本文主要回顧下幾個常用演算法的適應場景及其優缺點！機器學習演算法太多了，分類、迴歸、聚類、推薦、影象識別領域等等，要想找到一個合適演算

【機器學習演算法實現】kNN演算法手寫識別——基於Python和NumPy函式庫

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

機器學習演算法與Python實踐之邏輯迴歸（Logistic Regression）（二）

#!/usr/bin/python # -*- coding:utf-8 -*- import numpy as np from numpy import * import matplotlib.pyplot as plt #處理資料函式 def loadDataSet():

【機器學習】特徵選擇之最小冗餘最大相關性(mRMR)與隨機森林(RF)

特徵選擇之最小冗餘最大相關性(mRMR) 最小冗餘最大相關性(mRMR)是一種濾波式的特徵選擇方法，由Peng et.al提出。主要用途有機器學習，影象識別等。一種常用的特徵選擇方法是最大化特徵與分類變數之間的相關度，就是選擇與分類變數擁有最高相關度的前k個變數。但是，在特徵選擇中，

機器學習入門（1）--KNN演算法

KNN演算法是一種常用的監督學習方法。生活之中我們想要給一個未知的樣本歸類，通常就是尋找幾個相似事物進行對比。假如，某人看到一隻未知的貓，想知道其屬於什麼品種，往往會在腦海中尋找貓的資訊，當在腦海中發現短尾貓的形態特徵和這隻貓及其相似時，就認為這隻貓是一直短尾貓。 KN

機器學習演算法--KNN近鄰分類演算法

KNN近鄰分類演算法演算法思想：存在一個樣本資料集合，也稱為訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一資料與所屬分類對應的關係。輸入沒有標籤的資料後，將新資料中的每個特徵與樣本集中資料對應的特徵進行比較，提取出樣本集中特徵最相似資

機器學習演算法之正則化

>By joey周琦正則化假設目標函式為 J J, 比如 J J可以是對數似然函式的負數形式，特徵 i i的係數為 wi w_i, 係數向量 w=[w1,...,

機器學習演算法之：決策樹 (decision trees)

> By joey周琦概述線性模型一般variance小，bias大；而樹模型一般variance大，bias小決策樹的優點：具有可讀性，分類速度快一般包含三個步驟：特徵選擇決策樹生成剪枝

機器學習演算法之：邏輯迴歸 logistic regression (LR)

by joey周琦 LR介紹邏輯迴歸屬於probabilistic discriminative model這一類的分類演算法 probabilistic discriminative mode這類演算法的思路如下： - 直接建模 P(Ck|x)

機器學習演算法之：分類演算法概述

By joey周琦常見的分類演算法大致可以分為三類：直接給一個discriminant function，直接確定輸入feature x的屬於哪一類。這類演算法有SVM probabilistic discriminative model.該類方法直接給P(C

機器學習演算法總結之XGBoost（下）實戰與調參

寫在前面當時想學習XGBoost這個演算法就是因為研究生課題需要，現在終於可以試一試啦，希望真的像大家說的那麼強（據說是很多資料科學家的ultimate weapon）。XGBoost原理已在前一篇有過說明：機器學習演算法總結之XGBoost（上） 1.

機器學習演算法小整理之KNN

相關推薦