機器學習-KNN分類器

阿新 • • 發佈：2017-10-05

pos show sha key borde 不同簡單的測試 solid

1. K-近鄰(k-Nearest Neighbors，KNN)的原理

通過測量不同特征值之間的距離來衡量相似度的方法進行分類。

2. KNN算法過程

訓練樣本集：樣本集中每個特征值都已經做好類別標簽；

測試樣本：測試樣本中每個特征值都沒有類別標簽；

算法過程：計算測試樣本中特征值與訓練樣本集中的每個特征值之間的距離，提取與訓練樣本集中的特征值距離最近的前K個樣本，然後選取出現次數最多的類別標簽，作為測試樣本的類別標簽。

3. 度量特征值之間距離的方法

（1）歐氏距離

可稱為L2範數：

技術分享

其中p=2，則特征向量a=(a₁,a₂,…,a_m)和特征向量b=( b

₁,b₂,…,b_m)之間的距離為

技術分享

又稱歐式距離。

例如二維平面上的兩點a(x₁, y₁)和b(x₂, y₂)之間的歐式距離：

d值越小，表明特征值之間距離越小，兩個特征越相似。

（2）夾角余弦

特征向量a=(a₁,a₂,…,a_m)和特征向量b=( b₁,b₂,…,b_m)之間的夾角余弦為：

cos值越大，表明特征值之間距離越小，兩個特征越相似。

4. 一個簡單的例子

Python代碼示例：

# coding: utf-8

from numpy import *
import operator
import matplotlib.pyplot as plt

 
def createDataSet():  # 生成訓練集
    group = array([[1.0, 1.1], [0.9, 1.3], [ 0, 0.1], [0.1, 0.2]])
    labels = [‘A‘, ‘A‘, ‘B‘, ‘B‘]
    return group, labels

def showDataSet(dataSet, labels): # 顯示訓練集
    fig = plt.figure()
    ax = fig.add_subplot(111)
    index = 0
    for point in dataSet:
        if labels[index] == ‘ 
A‘:
            ax.scatter(point[0], point[1], c=‘blue‘)
            ax.annotate("A", xy = (point[0], point[1]))
        else:
            ax.scatter(point[0], point[1], c=‘red‘)
            ax.annotate("B", xy = (point[0], point[1]))
        index += 1
    plt.show()
   
def eulerDist(inXmat, dataSet):  # 使用歐式距離
    diffMat = inXmat - dataSet   # 輸入向量分別與樣本中其他的向量之差
    sqDiffMat = diffMat**2       # 差值求平方
    sqDistances = sqDiffMat.sum(axis=1) # axis=1將一個矩陣的每一行向量相加， 將差值相加
    dist = sqDistances**0.5      # 開方
    return dist

def cosDist(inXmat, dataSet): # 使用夾角余弦
    m = shape(inXmat)[0]
    dist = zeros((m)) # 與訓練集中每一個特征求距離
    for i in range(m):
        cos = dot(inXmat[i,:], dataSet[i,:])/(linalg.norm(inXmat[i,:])*linalg.norm(dataSet[i,:])) # 求余弦值
        dist[i] = cos
    return dist
    
def KNNclassify(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]  # 行數
    inXmat = tile(inX, (dataSetSize, 1)) # tile(A,reps)若reps為一個元組(m,n)，則構造一個m行n列的數組，其中每個元素均為A,
                                         # 目的是求inX分別與其他dataSet的數據間的距離
    distance = eulerDist(inXmat, dataSet)   # 使用歐式距離度量向量間距離
    sortedDistIndicies = distance.argsort() # 對一個數組進行升序排列,結果返回的就是a中所有元素排序後各個元素在a中之前的下標
    
    #distance = cosDist(inXmat, dataSet)      # 使用夾角余弦度量向量間距離
    #sortedDistIndicies = argsort(-distance)  # 降序排列
     
    classcount = {} # 字典
    
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classcount[voteIlabel] = classcount.get(voteIlabel,0) + 1  # dict.get(key, default=None) key:字典中要查找的鍵。
                                                                   # default -- 如果指定鍵的值不存在時，返回該默認值。
    
    # classcount.iteritems()返回一個叠代器。返回一個可以調用的對象(可以從操作對象中提取item）   
    # operator.itemgetter函數獲取的不是值，而是定義了一個函數。獲取對象的第1個域的值在這裏使用字典中的值進行從小到大進行排序
    # sorted(iterable, cmp, key, reverse)，iterable指定要排序的list或者iterable， 
    # cmp為函數，指定排序時進行比較的函數，可以指定一個函數或者lambda函數
    # key為函數，指定取待排序元素的哪一項進行排序
    # reverse默認為false（升序排列），定義為True時將按降序排列。
    sortedClassCount = sorted(classcount.iteritems(), key=operator.itemgetter(1), reverse=True)
    
    return sortedClassCount[0][0]

dataSet, labels = createDataSet(); # 生成訓練集
showDataSet(dataSet,labels)        # 顯示訓練集
inX = array([1, 1])                # 輸入一個測試樣本
classLabel = KNNclassify(inX, dataSet, labels, 3) # 使用KNN進行分類
print classLabel  # 輸入分類之後所屬的標簽

執行結果：

技術分享

-tany 2017年10月4日中秋於杭州

機器學習-KNN分類器

pos show sha key borde 不同簡單的測試 solid 1. K-近鄰(k-Nearest Neighbors，KNN)的原理通過測量不同特征值之間的距離來衡量相似度的方法進行分類。 2. KNN算法過程訓練樣本集：樣本集中每個特征值都

機器學習---線性分類器三種最優準則

線性分類器三種最優準則： Fisher 準則：根據兩類樣本一般類內密集，類間分離的特點，尋找線性分類器最佳的法線向量方向，使兩類樣本在該方向上的投影滿足類內儘可能密集，類間儘可能分開。這種度量通過類內

【機器學習】分類器效能指標

1. 錯誤率： e = 錯誤分類個數/總樣本數 2. 正確率： TP：分類正確正例 TN：分類正確負例 FP：分類錯誤正例 FN：分類錯誤負例 precision = 分類正確的正類/(預測結果中被分為正類的個數) = TP/(TP+FP) 3. 召回

機器學習之分類器的進階

專案中我用到的分類器是隨機森林。理解隨機森林，我先po一篇論文。George Vosselman教授的 http://www.sciencedirect.com/science/article/pii/S0924271616306207 這裡面用到的分類器是CRF以

機器學習之分類器——Matlab中各種分類器的使用總結（隨機森林、支援向量機、K近鄰分類器、樸素貝葉斯等）

Matlab中常用的分類器有隨機森林分類器、支援向量機（SVM）、K近鄰分類器、樸素貝葉斯、整合學習方法和鑑別分析分類器等。各分類器的相關Matlab函式使用方法如下：首先對以下介紹中所用到的一些變數做統一的說明： train_data——訓練樣本，矩陣的每

機器學習-KNN分類演算法Iris例項

概念 python知識點 KNN例項 # -*- coding: utf-8 -*- """ Created on Sat Mar 5 09:55:02 2016 @au

機器學習筆記（六）：KNN分類器

1 KNN演算法 1.1 KNN演算法簡介 KNN（K-Nearest Neighbor）工作原理：存在一個樣本資料集合，也稱為訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一資料與所屬分類對應的關係。輸入沒有標籤的資料後，將新資料中的每個特徵與樣本集中資料對應的特

機器學習(8)--建立KNN分類器

建立KNN分類器 KNN(k-nearest neighbors) 是使用k個最近鄰的訓練資料集來尋找物件分類的方法,如果希望將資料分類可以找到一個KNN並做一個多數表決程式碼實現如下: # -*- coding:utf-8 -*

機器學習(四) 分類算法--K近鄰算法 KNN

class 給定 sort sta shape counter 3.5 解釋 sqrt 一、K近鄰算法基礎 KNN------- K近鄰算法--------K-Nearest Neighbors 思想極度簡單應用數學知識少（近乎為零）效果好（缺點？）可以解

機器學習之分類問題實戰(基於UCI Bank Marketing Dataset)

表示般的機構文件 cnblogs opened csv文件 mas htm 導讀：分類問題是機器學習應用中的常見問題，而二分類問題是其中的典型，例如垃圾郵件的識別。本文基於UCI機器學習數據庫中的銀行營銷數據集，從對數據集進行探索，數據預處理和特征工程，到學習

機器學習二——分類算法--決策樹DecisionTree

其中 .cn 比較輸出選擇結構沒有 ati 流程圖機器學習算法評估標準：準確率，速度，強壯性（噪音影響較小），可規模性，可解釋性。 1、決策樹 Decision Tree：決策樹是一個類似於流程圖的樹結構，其中每個內部節點表示在一個屬性上的測試，每一個分支代表

機器學習三--分類--鄰近取樣（Nearest Neighbor）

post 個數均衡 urn learning clas 根據 () end 最鄰近規則分類 K-Nearest Neighbor 步驟：　　1、為了判斷未知實例的類別，以所有已知類別的實例作為參考。　　2、選擇參數K。　　3、計算未知實例與所有已知實例的距離。　　

深度學習—線性分類器理解

訓練集所有分享距離 tro 更新問題最優化線性分類 1、我們將要實現一種更強大的方法來解決圖像分類問題，該方法可以自然地延伸到神經網絡和卷積神經網絡上。這種方法主要有兩部分組成：一個是評分函數（score function），它是原始圖像數據到類別分值的映射。另

機器學習-KNN算法

訓練集 nbsp 線性分類但是測試優點 http 進行 inf 原理 KNN算法，又叫K近鄰算法。就是在訓練集中數據和標簽已知的情況下，輸入測試數據，將測試數據的特征與訓練集中對應的特征進行相互比較，找到訓練集中與之最為相似的前K個數據，則該測試數據對應的類別就是K個

一文讀懂機器學習大殺器XGBoost原理

結構近似算法機器 form con gin fff .cn tran http://blog.itpub.net/31542119/viewspace-2199549/ XGBoost是boosting算法的其中一種。Boosting算法的思想是將許多弱分類器集成在

機器學習——KNN

load -s 創建數據 sklearn lac bsp otl 訓練數據導入類庫 1 import numpy as np 2 from sklearn.neighbors import KNeighborsClassifier 3 from sklearn.

機器學習的分類與主要演算法對比

重要引用：Andrew Ng Courera Machine Learning；從機器學習談起；關於機器學習的討論；機器學習常見演算法分類彙總；LeNet Homepage；pluskid svm 　　首先讓我們瞻仰一下當今機器學習領域的執牛耳者：　　這幅圖上的三人是當今機器學習界的

2.機器學習基石 | 感知器

Perception感知器（用於線性二分類） PLA演算法：怎樣從假設空間中找到g H H H g g g

機器學習之分類和迴歸區別闡述

很多人分不清楚分類和迴歸，我來講一下，我們經常會碰到這樣的問題： 1、如何將信用卡申請人分為低、中、高風險群？ 2、如何預測哪些顧客在未來半年內會取消該公司服務，哪些電話使用者會申請增值服務？ 3、如何預測具有某些特徵的顧客是否會購買一臺新的計算機？ 4、如何預測病人應當接受三種

機器學習——KNN演算法以及案例預測入住位置

ķ最近鄰 KNN分類演算法其核心思想是假定所有的資料物件都對應於Ñ維空間中的點，如果一個數據物件在特徵空間中的ķ個最相鄰物件中的大多數屬於某一個類別，則該物件也屬於這個類別，並具有這個類別上樣本的特性.KNN方法在進行類別決策時，只與極少量的相鄰樣本有關。定義：如果一個樣本在特徵空間中的ķ

機器學習-KNN分類器

相關推薦