《機器學習實戰》學習筆記一：K近鄰演算法

阿新 • • 發佈：2019-01-09

K近鄰演算法

kNN演算法的原理：

存在一個樣本資料集合，且每個樣本資料都有對應的標籤，即我們知道樣本集合中每一資料與所屬分類的對應關係。

輸入沒有標籤的新資料後，將新資料的每個特徵與樣本集合中資料對應的特徵進行比較，然後提取樣本中最相似的K個分類標籤。

最後，選擇K個最相似資料中出現次數最多的分類，作為新資料的分類。

# coding=utf-8
from numpy import *
import operator

def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    #group和labels是四組資料，group表示座標，labels表示座標對應的特徵值
    return group,labels

#classify0是k近鄰演算法，計算用於分類的inX到dataSet的距離，判斷inX屬於哪個類。dataSet是訓練樣本資料集，labels是樣本對應的標籤值，k表示選取樣本前k個最相似的資料用於判斷inX屬於哪個分類。
def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]    #獲得dataSet的大小
    diffMat = tile(inX,(dataSetSize, 1)) - dataSet   #將inX擴充為（dataSetSize，1）即4行1列的矩陣，再與dataSet求差
    sqDiffMat = diffMat**2  
    sqDistances = sqDiffMat.sum(axis=1)   #.sum()執行加函式，引數axis=1表示矩陣每一行的各個值相加和
    distances = sqDistances**0.5
    sortedDistIndices = distances.argsort()
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndices[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0]

1.createDataSet用於建立訓練樣本資料集，本例中建立了四個樣本資料，分別為[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]，對應的分類（或稱為特徵值）分別為A,A,B,B

2.classify0函式是分類演算法，輸入的四個引數分別為（待分類的資料，樣本資料，樣本標籤，相似樣本標籤的個數）

首先，根據歐式距離公式求得待分類的資料到每個樣本資料的距離distances

dataSetSize：獲得dataSet的大小，為4

diffMat：將inX擴充為（dataSetSize，1）（即4行1列）的矩陣，再與dataSet求差值

然後，argsort函式表示從小到大排序，返回索引0,1,2,3，距離最近---距離最遠

3.對距離最近的k個樣本，進行分類分析

首先，獲得距離最近的k個樣本資料對應的樣本標籤

classCount表示每個樣本標籤以及出現次數的字典

然後，使用sorted函式排序，返回出現次數最多的標籤

[0,0]屬於B類

機器學習實戰筆記一：K-近鄰演算法在約會網站上的應用

K-近鄰演算法概述簡單的說，K-近鄰演算法採用不同特徵值之間的距離方法進行分類 K-近鄰演算法優點：精度高、對異常值不敏感、無資料輸入假定。缺點：計算複雜度高、空間複雜度高。適用範圍：數值型和標稱型。 k-近鄰演算法的一般流程收集資料:可使用任何方法

《機器學習實戰》學習筆記一：K近鄰演算法

K近鄰演算法kNN演算法的原理：存在一個樣本資料集合，且每個樣本資料都有對應的標籤，即我們知道樣本集合中每一資料與所屬分類的對應關係。輸入沒有標籤的新資料後，將新資料的每個特徵與樣本集合中資料對應的特徵

《機器學習實戰》第二章：k-近鄰演算法（3）手寫數字識別

這是k-近鄰演算法的最後一個例子——手寫數字識別！怎樣？是不是聽起來很高大上？呵呵。然而這跟影象識別沒有半毛錢的關係因為每個資料樣本並不是手寫數字的圖片，而是有由0和1組成的文字檔案，就像這樣：嗯，這個資料集中的每一個樣本用圖形軟體處理過，變成了寬高

《機器學習實戰》第二章：k-近鄰演算法（1）簡單KNN

收拾下心情，繼續上路。最近開始看Peter Harrington的《Machine Learning in Action》... 的中文版《機器學習實戰》。準備在部落格裡面記錄些筆記。這本書附帶的程式碼和資料及可以在這裡找到。這本書裡程式碼基本是用python寫的

《機器學習實戰》第二章：k-近鄰演算法（2）約會物件分類

這是KNN的一個新例子。在一個約會網站裡，每個約會物件有三個特徵：（1）每年獲得的飛行常客里程數（額...這個用來判斷你是不是成功人士？）（2）玩視訊遊戲所耗時間百分比（額...這個用來判斷你是不是肥宅？）（3）每週消費的冰激凌公升數（額...這個是何用意我真不知道

機器學習筆記九：K近鄰演算法（KNN）

一.基本思想 K近鄰演算法，即是給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的K個例項，這K個例項的多數屬於某個類，就把該輸入例項分類到這個類中。如下面的圖：通俗一點來說，就是找最“鄰近”的夥伴，通過這些夥伴的類別來看自己的類別

機器學習實戰（第二篇）-k-近鄰演算法開發手寫識別系統

上一篇文章中，我們學習了使用k近鄰演算法改進約會網站，實現了通過一些資料的輸入判斷人員屬於哪一個分類。但是上篇文章基於的資料都是我們能夠簡單理解的數字資訊，本篇文章我們在人不太容易看懂的資料上使用分類器。這篇文章中我們將一步步構造使用k-近鄰分類器的手寫識別系統。為了

機器學習實戰（第二篇）-k-近鄰演算法改進約會網站配對結果

前面幾篇中，我們學習了機器學習演算法中k-近鄰演算法，本章我們將使用該演算法進行改進約會網站配對結果的工作。首先我們先進入背景介紹：我的朋友海倫一直使用線上約會網站尋找適合自己的約會物件。儘管約會網站會推薦不同的人選，但她沒有從中找到喜歡的人。經過一番總

機器學習實戰（第二篇）-k-近鄰演算法Python實現

上一篇幅中，我們介紹了k-近鄰演算法的基本概念、具體的分析步驟和分析方法，本篇中我們將介紹如何通過Python工具實現一個k-近鄰演算法。 1. 準備-使用Python匯入資料首

【機器學習實戰】第2章 K-近鄰演算法(k-NearestNeighbor，KNN)

第2章 k-近鄰演算法 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script>

Python3《機器學習實戰》學習筆記（一）：k-近鄰演算法

**轉載：**http://blog.csdn.net/c406495762執行平臺： WindowsPython版本： Python3.xIDE： Sublime text3 他的個人網站：http://cuijiahua.com 文章目錄

《機器學習實戰》筆記（一）：K-近鄰演算法

一、K-近鄰演算法 1.1 k-近鄰演算法簡介簡單的說，K-近鄰演算法採用測量不同特徵值之間的距離的方法進行分類。 1.2 原理存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一資料與所屬分類的對應關係。輸入沒有標籤的新資料

《機器學習實戰》學習筆記（一）：k-近鄰演算法

k-近鄰演算法原書中程式碼為python2中語法，python3的語法參考連結：https://blog.csdn.net/c406495762/article/details/75172850 給出k-近鄰演算法的完整程式碼（海倫相親程式） import numpy a

python3.5《機器學習實戰》學習筆記（一）：k近鄰演算法

轉載請註明作者和出處：http://blog.csdn.net/u013829973 系統版本：window 7 （64bit） python版本：python 3.5 IDE：Spyder （一個比較方便的辦法是安裝anaconda，那麼Spyder和

Python3《機器學習實戰》學習筆記（一）：k-近鄰演算法(史詩級乾貨長文)

#一簡單k-近鄰演算法本文將從k-鄰近演算法的思想開始講起，使用python3一步一步編寫程式碼進行實戰訓練。並且，我也提供了相應的資料集，對程式碼進行了詳細的註釋。除此之外，本文也對sklearn實現k-鄰近演算法的方法進行了講解。實戰例項：

《機器學習實戰》第2章閱讀筆記3 使用K近鄰演算法改進約會網站的配對效果—分步驟詳細講解1——資料準備：從文字檔案中解析資料（附詳細程式碼及註釋）

本篇使用的資料存放在文字檔案datingTestSet2.txt中，每個樣本資料佔據一行，總共有1000行。樣本主要包含以下3中特徵：（1）每年獲得飛行常客里程數（2）玩視訊遊戲所耗時間百分比（3）每週消費的冰淇淋公升數在使用分類器之前，需要將處理的檔案格式

機器學習實戰：K近鄰演算法--學習筆記

一、KNN的工作原理假設有一個帶有標籤的樣本資料集（訓練樣本集），其中包含每條資料與所屬分類的對應關係。輸入沒有標籤的新資料後，將新資料的每個特徵與樣本集中資料對應的特徵進行比較。 1）計算新資料與樣本資料集中每條資料的距離。 2）對求得的所有距離進

Python3《機器學習實戰》筆記：K-近鄰演算法

2.1 實施KNN演算法 python3實現KNN演算法，本書採用的是python2，轉化為python3 import numpy as np #運算子模組 import operator def createDataSet(): group = np

python3.5《機器學習實戰》學習筆記（三）：k近鄰演算法scikit-learn實戰手寫體識別

轉載請註明作者和出處：http://blog.csdn.net/u013829973 系統版本：window 7 （64bit）我的GitHub：https://github.com/weepon python版本：python 3.5 IDE：Spy

《機器學習實戰》讀書筆記2：K-近鄰(kNN)演算法 & 原始碼分析

宣告：文章是讀書筆記，所以必然有大部分內容出自《機器學習實戰》。外加個人的理解，另外修改了部分程式碼，並添加了註釋 1、什麼是K-近鄰演算法？簡單地說，k-近鄰演算法採用測量不同特徵值之間距離的方法進行分類。不恰當但是形象地可以表述為近朱者赤，近墨者黑

《機器學習實戰》學習筆記一：K近鄰演算法

相關推薦