資料探勘領域十大經典演算法之—K-鄰近演算法/kNN（超詳細附程式碼）

阿新 • • 發佈：2019-01-11

簡介

又叫K-鄰近演算法，是監督學習中的一種分類演算法。目的是根據已知類別的樣本點集求出待分類的資料點類別。

基本思想

kNN的思想很簡單：在訓練集中選取離輸入的資料點最近的k個鄰居，根據這個k個鄰居中出現次數最多的類別（最大表決規則），作為該資料點的類別。kNN演算法中，所選擇的鄰居都是已經正確分類的物件。

e.g：下圖中，綠色圓要被決定賦予哪個類，是紅色三角形還是藍色四方形？如果k=3，由於紅色三角形所佔比例為2/3，綠色圓將被賦予紅色三角形那個類，如果k=5，由於藍色四方形比例為3/5，因此綠色圓被賦予藍色四方形類。

演算法複雜度

kNN是一種lazy-learning演算法，分類器不需要使用訓練集進行訓練，因此訓練時間複雜度為0；kNN分類的計算複雜度和訓練集中的文件數目成正比，也就是說，如果訓練集中文件總數為n，那麼kNN的分類時間複雜度為O(n)；因此，最終的時間複雜度是O(n)。

優缺點

優點

理論成熟，思想簡單，既可以用來做分類也可以用來做迴歸；
適合對稀有事件進行分類（例如：客戶流失預測）；
特別適合於多分類問題(multi-modal,物件具有多個類別標籤，例如：根據基因特徵來判斷其功能分類)， kNN比SVM的表現要好。

缺點

當樣本不平衡時，如一個類的樣本容量很大，而其他類樣本容量很小時，有可能導致當輸入一個新樣本時，該樣本的K個鄰居中大容量類的樣本佔多數；
計算量較大，因為對每一個待分類的文字都要計算它到全體已知樣本的距離，才能求得它的K個最近鄰點；
可理解性差，無法給出像決策樹那樣的規則。

程式碼

程式碼已在github

上實現，這裡也貼出來

# coding:utf-8

import numpy as np

def createDataset():
    '''
    建立訓練集,特徵值分別為搞笑鏡頭、擁抱鏡頭、打鬥鏡頭的數量
    '''
    learning_dataset = {"寶貝當家": [45, 2, 9, "喜劇片"],
              "美人魚": [21, 17, 5, "喜劇片"],
              "澳門風雲3": [54, 9, 11, "喜劇片"],
              "功夫熊貓3": [39, 0, 31, "喜劇片"],
              "諜影重重" 
: [5, 2, 57, "動作片"],
              "葉問3": [3, 2, 65, "動作片"],
              "倫敦陷落": [2, 3, 55, "動作片"],
              "我的特工爺爺": [6, 4, 21, "動作片"],
              "奔愛": [7, 46, 4, "愛情片"],
              "夜孔雀": [9, 39, 8, "愛情片"],
              "代理情人": [9, 38, 2, "愛情片"],
              "新步步驚心": [8, 34, 17, "愛情片"]}
    return learning_dataset


def kNN(learning_dataset,dataPoint,k):
    '''
    kNN演算法,返回k個鄰居的類別和得到的測試資料的類別
    '''
    # s1:計算一個新樣本與資料集中所有資料的距離
    disList=[]
    for key,v in learning_dataset.items():
       d=np.linalg.norm(np.array(v[:3])-np.array(dataPoint))
       disList.append([key,round(d,2)])

    # s2:按照距離大小進行遞增排序
    disList.sort(key=lambda dis: dis[1]) 

    # s3:選取距離最小的k個樣本
    disList=disList[:k]

    # s4:確定前k個樣本所在類別出現的頻率，並輸出出現頻率最高的類別
    labels = {"喜劇片":0,"動作片":0,"愛情片":0}  
    for s in disList:  
        label = learning_dataset[s[0]]  
        labels[label[len(label)-1]] += 1  
    labels =sorted(labels.items(),key=lambda asd: asd[1],reverse=True)

    return labels,labels[0][0]


if __name__ == '__main__':

    learning_dataset=createDataset()

    testData={"唐人街探案": [23, 3, 17, "？片"]}
    dataPoint=list(testData.values())[0][:3]

    k=6

    labels,result=kNN(learning_dataset,dataPoint,k)
    print(labels,result,sep='\n')

大資料探勘領域十大經典演算法之—CART演算法（附程式碼）

簡介 CART與C4.5類似，是決策樹演算法的一種。此外，常見的決策樹演算法還有ID3，這三者的不同之處在於特徵的劃分： ID3：特徵劃分基於資訊增益 C4.5：特徵劃分基於資訊增益比 CART：特徵劃分基於基尼指數基本思想 CART假設決策樹是二叉樹，

資料探勘領域十大經典演算法之—樸素貝葉斯演算法（超詳細附程式碼）

簡介 NaïveBayes演算法，又叫樸素貝葉斯演算法，樸素：特徵條件獨立；貝葉斯：基於貝葉斯定理。屬於監督學習的生成模型，實現簡單，沒有迭代，並有堅實的數學理論（即貝葉斯定理）作為支撐。在大量樣本下會有較好的表現，不適用於輸入向量的特徵條件有關聯的場景。基本思想 (1)

資料探勘領域十大經典演算法之—SVM演算法（超詳細附程式碼）

簡介 SVM(Support Vector Machine)中文名為支援向量機，是常見的一種判別方法。在機器學習領域，是一個有監督的學習模型，通常用來進行模式識別、分類以及迴歸分析。相關概念分類器：分類器就是給定一個樣本的資料，判定這個樣本屬於哪個類別的演算法。例如在股

資料探勘領域十大經典演算法之—SVM演算法

本文轉自：https://blog.csdn.net/fuqiuai/article/details/79483057 簡介 SVM(Support Vector Machine)中文名為支援向量機，是常見的一種判別方法。在機器學習領域，是一個有監督的學習模型，通常用來

資料探勘領域十大經典演算法之—CART演算法（超詳細附程式碼）

簡介 CART與C4.5類似，是決策樹演算法的一種。此外，常見的決策樹演算法還有ID3，這三者的不同之處在於特徵的劃分： ID3：特徵劃分基於資訊增益 C4.5：特徵劃分基於資訊增益比 CART：特徵劃分基於基尼指數基本思想 CAR

資料探勘領域十大經典演算法之—Apriori演算法

簡介先驗演算法（Apriori Algorithm）是關聯規則學習的經典演算法之一。先驗演算法的設計目的是為了處理包含交易資訊內容的資料庫（例如,顧客購買的商品清單，或者網頁常訪清單。）而其他的演算法則是設計用來尋找無交易資訊（如Winepi演算法和Mi

資料探勘領域十大經典演算法之—C4.5演算法（超詳細附程式碼）

資料探勘十大經典演算法如下：簡介 C4.5是決策樹演算法的一種。決策樹演算法作為一種分類演算法，目標就是將具有p維特徵的n個樣本分到c個類別中去。常見的決策樹演算法有ID3,C4.5,CART。基本思想下面以一個例子來詳細說明C4.5的基本思想上述

資料探勘領域十大經典演算法之—K-鄰近演算法/kNN（超詳細附程式碼）

簡介又叫K-鄰近演算法，是監督學習中的一種分類演算法。目的是根據已知類別的樣本點集求出待分類的資料點類別。基本思想 kNN的思想很簡單：在訓練集中選取離輸入的資料點最近的k個鄰居，根據這個k個鄰居中出現次數最多的類別（最大表決規則），作為該資料

資料探勘的十大經典演算法

如果有對大資料感興趣程式設計師，可來我們的大資料交流扣qun哦：591305687裡面免費送大資料的系統教程噢！小編也是一名從事了5年的資料演算法工程師，花了近兩個月整理了一份較適合當下學習的乾貨，以及我這5年的工作經驗，分享給每一位想學大資料的小夥伴，這裡是大資料學習者聚集地，歡迎

大資料之資料探勘理論筆記聚類問題之K-means

大資料之資料探勘理論筆記聚類問題之K-means 推薦參考博文： http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html 推薦參考博文： http://blog.csdn.net/cyxlzzs

資料探勘領域的十大經典演算法

國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 2006年12月評選出了資料探勘領域的十大經典演算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, A

資料探勘十大經典演算法之K-means 演算法

K-means演算法（非監督性學習） 1.演算法思想 k-means演算法是一種簡單的迭代型聚類演算法，採用距離作為相似性指標，從而發現給定資料集中的K個類，且每個類的中心是根據類中所有值的均值得到，每個類

資料探勘領域經典演算法——CART演算法

簡介 CART與C4.5類似，是決策樹演算法的一種。此外，常見的決策樹演算法還有ID3，這三者的不同之處在於特徵的劃分： ID3：特徵劃分基於資訊增益 C4.5：特徵劃分基於資訊增益比 CART：特徵劃分基於基尼指數基本思想 CART假設決策樹是二叉樹，內部結點特徵的取值為“是”和“否”，左分支

資料探勘領域中的分類和迴歸區別是什麼？

先簡單的說下吧，下面給出實際例子類和迴歸的區別在於輸出變數的型別。定量輸出稱為迴歸，或者說是連續變數預測；定性輸出稱為分類，或者說是離散變數預測。舉個例子：預測明天的氣溫是多少度，這是一個迴歸任務；預測明天是陰、晴還是雨，就是一個分類任務。拿支援向量機舉個例子，分類問題

機器學習十大經典演算法之K-近鄰演算法（學習筆記）

演算法概述 K-近鄰演算法(k-Nearest Neighbor，KNN)是機器學習演算法中最簡單最容易理解的演算法。該演算法的思路是：給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的K個例項，這K個例項的多數屬於某個類，就把該輸入例項分

資料探勘實戰——交通大資料預測II

經過了近兩個月的艱苦工作，這次在阿里天池的比賽終於結束了。第一次正經的去參加資料探勘的比賽，從第一賽季開始到第二賽季結束，完整地經歷了整個流程，每天提出新想法，學習新的方法，然後用程式設計的方法去實現，看著自己的MAPE一天天的下降，那種感覺也是很棒的。覺得付出了很多，也收

資料探勘的九大定律

資料探勘通用流程 CRISP-DM 的締造者之一 Tom Khabaza 總結過在資料探勘上的九大定律：（1） Business Goals Law：每個資料探勘解決方案的根源都是有商業目的的。（2） Business Knowledge Law：資料探勘過程的每一步都需要以

python資料探勘領域工具包

http://qxde01.blog.163.com/blog/static/67335744201368101922991/ Python在科學計算領域，有兩個重要的擴充套件模組：Numpy和Scipy。其中Numpy是一個用python實現的科學計算包。包括：

【資料探勘結果】大資料企業的彙總資訊

名稱涉及領域核心業務投資機構投資機構投資機構投資機構金額（人民幣）輪次美林資料演算法/分析

【資料探勘筆記十】聚類分析：基本概念和方法

1）10.聚類分析：基本概念和方法聚類是一個把資料物件集劃分成多個組或簇的過程，使得簇內的物件具有很高的相似性，但與其他簇中的物件很不相似。相異性和相似性根據描述物件的屬性值評估，涉及到距離度量。10.1 聚類分析聚類分析把一個數據物件（或觀測）劃分子集的過程。由聚類分析產生

資料探勘領域十大經典演算法之—K-鄰近演算法/kNN（超詳細附程式碼）

簡介

基本思想

演算法複雜度

優缺點

優點

缺點

程式碼

相關推薦