KNN-機器學習實戰系列（一）

阿新 • • 發佈：2019-02-08

開門見山，本文單說KNN：

作為機器學習實戰書籍介紹的第一個演算法，有一些值得說道的地方：

1：什麼是KNN？

機器學習的一些基本知識和概念不加敘述了，直接給出KNN的白話定義：給定M個樣本，每個樣本均有N個數字衡量的屬性，而每個樣本均帶有自身的標籤：

這裡，為什麼需要數字化定義屬性呢？這方便了我們衡量指標的計算，我們可以使用距離這一可用數學表示式實現的概念，來闡述何謂近鄰。

而KNN，英文名：k-Nearest Neigbhors :稱作K近鄰演算法，每次來一個新的樣本，就可以通過從M個樣本中，找出K個最近的樣本，通過這K個樣本的屬性來判別新樣本的類別：

可以看出，KNN屬於監督類學習演算法，對其提供支援的樣本，都是標記好的樣本；

2：演算法角度的實現：

from numpy import *
def createDataSet():
    group = array([[1.0,1.1 ],[1.0,1.0],[0,0], [0,0.1]])
    labels = ['A','A','B','B']
    return group,labels
group,labels = createDataSet()

該段程式碼，負責樣本集合的生成，淺顯易懂，不多說：

這裡，給出的樣本非常簡單，而實際上來說，我們在使用該演算法的過程中，樣本都會比較複雜，屬性也會比較多，這些在本文不予涉及，生成樣本的方式是多種多樣的，我們這裡要做的，是直接對合規的樣本進行操作：

接下來是主題邏輯：

def classify0(intX,dataSet,labels,k):
    # 獲取樣本的總數，比如樣本是N行
    dataSetSize = dataSet.shape[0]
    # tile方式，會生成N行與待測樣本完全一致的資料集
    tiles  =  tile(intX, (dataSetSize,1))
    # 取差值，這就是python的簡便之處了，一句話求取出所有的(x-x1)和(y-y1)
    diffMat =  tiles - dataSet
    
    # 對於所有的元素進行平方操作
    sqDiffMat = diffMat ** 2
    
    # 平方操作加起和，得到距離
    sqDistances = sqDiffMat.sum(axis=1)
    # 距離排序
    sortedDistIndicies = sqDistances.argsort()
    
    # 取出距離最小的K個點，記錄標籤
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0)+1
    
    # 檢視這K個點中，哪種類別比較多
    sortedClassCount = sorted(classCount.iteritems(),key = operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0];

總體思想就是這樣：很簡單，很好理解，用一句古話說就是：近朱者赤，近墨者黑。

3：我對該演算法的一些理解：

KNN算是機器學習之初誕生的一些老演算法了，其效能還算不錯，當然同時也是有缺陷的：

首先，其缺陷在於需要每次樣本都要遍歷一次所有的資料，這個計算量相對比較大，如果樣本集合已經有百萬，甚至是千萬那麼大，我們每次還要為一個樣本去計算數百萬，甚至是數千萬次，投入和產出明顯是不成正比的：

個人感覺，這裡其實可以用堆排序的方法來做優化，設定一個K元素大小的最小堆，來儘可能減小演算法的複雜度：

其二，這裡的K設定是很關鍵的，假如說K太小，可能很少的元素就決定了新樣例的樣本，這是不合理的，如果K太大，會導致計算和排序比較麻煩，所以需要從中調和：

其三，如果某個屬性值本身比較大，可能會導致在距離計算的時候，導致該屬性佔據的份額比較大，這是有問題的，所以可通過歸一化進行處理，將資料的計算都整合在0-1的範圍之內，方便我們的計算：

KNN-機器學習實戰系列（一）

開門見山，本文單說KNN：作為機器學習實戰書籍介紹的第一個演算法，有一些值得說道的地方： 1：什麼是KNN？機器學習的一些基本知識和概念不加敘述了，直接給出KNN的白話定義：給定M個樣本，每個樣本均有N個數字衡量的屬性，而每個樣本均帶有自身的標籤：這裡，為什麼需

《機器學習實戰》（一）knn演算法

K最近鄰（k-Nearest Neighbor，KNN）分類演算法可以說是最簡單的機器學習演算法了。它採用測量不同特徵值之間的距離方法進行分類。它的思想很簡單：存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一個數據與所屬分類的對應關係。輸入沒有標

機器學習實戰ByMatlab（一）KNN演算法

KNN 演算法其實簡單的說就是“物以類聚”，也就是將新的沒有被分類的點分類為周圍的點中大多數屬於的類。它採用測量不同特徵值之間的距離方法進行分類，思想很簡單：如果一個樣本的特徵空間中最為臨近（歐式距

機器學習實戰教程（一）：線性回歸基礎篇（上）

學習 reg style spa 目標 pub auto 機器輸入一什麽是回歸？　　回歸的目的是預測數值型的目標值，最直接的辦法是依據輸入，寫入一個目標值的計算公式。　　假如你想預測小姐姐男友汽車的功率，可能會這麽計算：　　　　　　　　　　　　　　Ho

機器學習實戰筆記（一）- 使用SciKit-Learn做回歸分析

err 皮爾遜練習 using flow 相關一個數 ocean 針對一、簡介這次學習的書籍主要是Hands-on Machine Learning with Scikit-Learn and TensorFlow（豆瓣：https://book.douban.co

機器學習實戰系列（五）：SVM支援向量機

課程的所有資料和程式碼在我的Github：Machine learning in Action，目前剛開始做，有不對的歡迎指正，也歡迎大家star。除了版本差異，程式碼裡的部分函式以及程式碼正規化也和原書不一樣（因為作者的程式碼實在讓人看的彆扭，我改過後看起來舒服多了）

《機器學習實戰》（1）kNN小結（小白教學，每行程式碼都有註釋）

最近入坑了機器學習，為了快速提高自己的機器學習的程式碼能力，入坑了《機器學習實戰》，目前只學習了第一個重要演算法:k近鄰演算法（kNN），在學習過程中發現許多相關的學習資料要麼程式碼是python2的，要麼程式碼的解釋不夠詳細，對於像我這樣的菜雞而言苦不堪言，為了後來者不踩我

中國mooc北京理工大學機器學習第一周（一）

lib odi pen 運行 numpy 聚類準則 ++ mooc 從今天開始跟著北理工的老師走一遍sklearn，在這裏做筆記。一、聚類 1、K-Means方法先貼代碼，所有數據的下載地址：http://pan.baidu.com/s/1hrO5NW4

中國mooc北京理工大學機器學習第二周（一）：分類

kmeans 方法輸入 nump arr mod 理工大學 each orm 一、K近鄰方法（KNeighborsClassifier）使用方法同kmeans方法，先構造分類器，再進行擬合。區別是Kmeans聚類是無監督學習，KNN是監督學習，因此需要劃分出訓練集和測試

ORM框架疏理——廖雪峰實戰系列（一）

命令 delete ica 隱式 orm mod prim 數據結構 lam ORM（Object Relational Mapping，對象關系映射)，是一種程序設計技術，用於實現面向對象編程語言裏不同類型系統的數據之間的轉換。從效果上來說，它其實創建了一個可在編程語言裏

機器學習入門點滴（一）（待補充完整）

arr intro 統計 int ica nts 機器學習算法 .com 場景 Step1-知識準備： 1. 數學：線性代數，概率論和統計，高數 2. 程序語言：Matlab R 或 Python（只用於學習入門，不是實現的最佳語言） 3. 推薦書籍：選擇一到兩本公式較少、

《Python 機器學習》筆記（一）

環境成功設定相關 reward 能力學習一定的 env 賦予計算機學習數據的能力涵蓋：1.機器學習的一般概念2.機器學習方法的三種類型和基本術語3.成功構建機器學習系統所需的模塊機器學習的三種不同方法1.監督學習2.無監督學習3.強化學習通過監督學習對未來事件進行

吳恩達老師機器學習筆記SVM（一）

時隔好久沒有再拾起機器學習了，今日抽空接著學今天是從最簡單的二維資料分類開始學習SVM~ （上圖為原始資料） SVM的代價函式這裡套用以前logistic迴歸的模板改一下下。。 load('ex6data1.mat'); theta=rand(3,1); [

機器學習基礎概念（一）

“無監督學習”是指人們在獲得訓練的向量資料後在沒有標籤的情況下嘗試找出其內部蘊含關係的一種挖掘工作，這個過程中使用者除了可能要設定一些必要的超引數（ hyper-parameter）以外，不用對這些樣本做任何的標記甚至是過程干預； “有監督學習”與此不同，每一個樣本都有著明確的標籤，最

系統學習機器學習之總結（一）--常見分類演算法優缺點

主要是參考網上各種資源，做了整理。其實，這裡更多的是從基礎版本對比，真正使用的時候，看資料，看改進後的演算法。 1. 五大流派 ①符號主義：使用符號、規則和邏輯來表徵知識和進行邏輯推理，最喜歡的演算法是：規則和決策樹 ②貝葉斯派：獲取發生的可能性來進行概率推理，最喜歡的演算法是：樸素貝葉

Python爬蟲入門實戰系列（一）--爬取網路小說並存放至txt檔案

執行平臺： Windows Python版本： Python3.x 一、庫檔案

跨平臺機器學習實踐小結（一）

一、問題來源：如何在node web服務下呼叫sklearn的模型結果來進行實時模型預測？二、問題分析： 1、sklearn的模型結果有幾種儲存方式：（1）pickle.dumps ，結果通過變數儲存在記憶體中附上pickle文件：https://docs.pytho

機器學習速成筆記（一）：主要術語

機器學習研究如何通過計算的方式，利用資料集來改善系統自身的效能。而深度學習是屬於機器學習的一個子分支。機器學習的通用的兩種型別：無監督學習：事先並沒有任務訓練資料的樣本，需要直接對資料進行建模型。監督學習：通過已經有的訓練樣本（即輸入資訊和對應的輸出）來訓練，得到一個

機器學習：SVM（一）——線性可分支援向量機原理與公式推導

原理 SVM基本模型是定義在特徵空間上的二分類線性分類器（可推廣為多分類），學習策略為間隔最大化，可形式化為一個求解凸二次規劃問題，也等價於正則化的合頁損失函式的最小化問題。求解演算法為序列最小最優化演算法（SMO）當資料集線性可分時，通過硬間隔最大化，學習一個線性分類器；資料集近似線性可分時，即存在一小

深度學習基礎系列（一）| 一文看懂用kersa構建模型的各層含義（掌握輸出尺寸和可訓練引數數量的計算方法）

我們在學習成熟神經模型時，如VGG、Inception、Resnet等，往往面臨的第一個問題便是這些模型的各層引數是如何設定的呢？另外，我們如果要設計自己的網路模型時，又該如何設定各層引數呢？如果模型引數設定出錯的話，其實模型也往往不能運行了。　　所以，我們需要首

KNN-機器學習實戰系列（一）

相關推薦