kNN k近鄰演算法的python實現

阿新 • • 發佈：2019-01-03

Machine Learning in Action 這本書中演算法的實現

#!/usr/bin/python
# -*- coding: utf-8 -*-
from numpy import*
import operator
import matplotlib
import matplotlib.pyplot as plt
from os import listdir
def createDataSet():#生成訓練集
    group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels=['A','A','B','B']
    return group,labels
group,labels=createDataSet()
# print group,labels
def classify0(inX,dataSet,labels,k):#kNN演算法
    dataSetSize=dataSet.shape[0]
    diffMat=tile(inX,(dataSetSize,1))-dataSet
    # print diffMat
    sqDiffMat=diffMat**2
    sqDistances=sqDiffMat.sum(axis=1)
    # print sqDistances
    distances=sqDistances**0.5
    sortedDistIndicies=distances.argsort()
    #print distances,sortedDistIndicies
    classCount={}
    for i in range(k):
        voteIlabel=labels[sortedDistIndicies[i]]
        classCount[voteIlabel]=classCount.get(voteIlabel,0)+1
        # print classCount
    sortedClassCount=sorted(classCount.iteritems(),
                            key=operator.itemgetter(1),reverse=True)
    # print sortedClassCount
    return sortedClassCount[0][0]
def file2matrix(filename):   #從檔案讀資料
    fr=open(filename)
    arrayOLines=fr.readlines()#讀出每一行
    #print(arrayOLines)
    numberOfLines=len(arrayOLines)#行數
    returnMat=zeros((numberOfLines,3))#0矩陣Numpy
    classLabelVector=[]
    index=0
    for line in arrayOLines:
        line=line.strip() #去掉回車
        #print line
        listFromLine=line.split('\t')   #把整行資料分割為元素列表
        #print listFromLine
        returnMat[index,:]=listFromLine[0:3]
        classLabelVector.append(int(listFromLine[-1]))  #-1為最後一列
        index+=1
    return returnMat,classLabelVector
def autuNorm(dataSet): #資料正則化：new=(old-min)/(max-min)
    minVals=dataSet.min(0)
    maxVals=dataSet.max(0)
    #print maxVals
    ranges=maxVals-minVals
    normDataSet=zeros(shape(dataSet))
    m=dataSet.shape[0]
    normDataSet=dataSet-tile(minVals,(m,1))
    normDataSet=normDataSet/tile(ranges,(m,1))
    return normDataSet,ranges,minVals
def datingClassTest():   #測試訓練集精度
    hoRatio=0.10
    datingDataMat,datingLables=file2matrix('datingTestSet2.txt')
    normMat,ranges,minVals=autuNorm(datingDataMat)
    m=normMat.shape[0]
    numTestVecs=int(m*hoRatio)
    errorCount=0.0
    for i in range(numTestVecs):
        classifierResult=classify0(normMat[i,:],normMat[numTestVecs:m,:],\
                                   datingLabels[numTestVecs:m],3)
        print "result: %d ,real: %d"\
              %(classifierResult,datingLabels[i])
        if(classifierResult!=datingLabels[i]):errorCount+=1.0
    print"error rates %f" %(errorCount/float(numTestVecs))
def img2vector(filename):  #將32*32的影象資料轉換為一行的向量
    returnVect=zeros((1,1024))
    fr=open(filename)
    for i in range(32):
        lineStr=fr.readline()
        for j in range(32):
            returnVect[0,32*i+j]=int(lineStr[j])
    return returnVect
def handwritingClassTest():  #手寫數字識別
    hwLabels = []
    trainingFileList = listdir('trainingDigits')
    m = len(trainingFileList)
    trainingMat = zeros((m,1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)
    testFileList = listdir('testDigits')
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr)
        if (classifierResult != classNumStr): errorCount += 1.0
    print "\nthe total number of errors is: %d" % errorCount
    print "\nthe total error rate is: %f" % (errorCount/float(mTest))
#print classify0([0,0],group,labels,3)
datingDataMat,datingLabels=file2matrix('datingTestSet2.txt')
# 畫出影象分析資料特徵
# fig=plt.figure()
# ax=fig.add_subplot(111)
# ax.scatter(datingDataMat[:,1],datingDataMat[:,2],15.0*array(datingLabels),
#            15.0*array(datingLabels))
# plt.show()

#datingClassTest()
handwritingClassTest()

【機器學習演算法-python實現】KNN-k近鄰演算法的實現（附原始碼）

下載地址 kNN演算法及例項原始碼實現#coding=utf-8 ''' Created on Sep 16, 2010 kNN: k Nearest Neighbors Input: inX: vector to compare to existing dataset (1xN)

機器學習實戰——k-近鄰演算法Python實現問題記錄

準備 kNN.py 的python模組 from numpy import * import operator def createDataSet(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

機器學習實戰（第二篇）-k-近鄰演算法Python實現

上一篇幅中，我們介紹了k-近鄰演算法的基本概念、具體的分析步驟和分析方法，本篇中我們將介紹如何通過Python工具實現一個k-近鄰演算法。 1. 準備-使用Python匯入資料首

K-近鄰演算法python實現

內容主要來源於機器學習實戰這本書，加上自己的理解。 1.KNN演算法的簡單描述 K最近鄰（k-Nearest Neighbor，KNN）分類演算法可以說是最簡單的機器學習演算法了。它採用測量不同特徵值之間的距離方法進行分類。它的思想很簡單：如果一個樣本在特徵空間中的k個最

距離產生美？k近鄰演算法python實現

1. 什麼是k近鄰演算法？ k最近鄰(k-Nearest Neighbor，kNN)分類演算法是一個比較成熟也是最簡單的機器學習(Machine Learning)演算法之一。該方法的思路是：如果一個樣本在特徵空間中與k個例項最為相似(即特徵空間中最鄰

《機器學習實戰》——k-近鄰演算法Python實現問題記錄

《機器學習實戰》第二章k-近鄰演算法，自己實現時遇到的問題，以及解決方法。做個記錄。 1.寫一個kNN.py儲存了之後，需要重新匯入這個kNN模組。報錯：no module named kNN. 解決方法：1.將.py檔案放到 site_packages 目錄下

kNN k近鄰演算法的python實現

Machine Learning in Action 這本書中演算法的實現 #!/usr/bin/python # -*- coding: utf-8 -*- from numpy import* import operator import matplotlib impor

K近鄰演算法-python程式碼實現

K-Nearest Neighbor 　　商業哲學家 Jim Rohn 說過一句話，“你，就是你最常接觸的五個人的平均。”那麼，在分析一個人時，我們不妨觀察和他最親密的幾個人。同理的，在判定一個未知事物時，可以觀察離它最近的幾個樣本，這就是 kNN（k最近鄰）

機器學習-k-近鄰演算法python實踐【4】

寫在最前面：簡單來說，k-近鄰演算法是用來根據不同的特徵進行分類的一種演算法優點：精度高、對異常值不敏感、無資料輸入假定缺點：計算複雜度高、空間複雜度高適用資料範圍：數值型和標稱型 IDE:Pycharm python版本：3.6 作業系統：macOS Mojave k

KNN(K近鄰)演算法小結

1.K近鄰演算法的介紹： K近鄰演算法是一個理論上比較成熟的分類演算法，也是機器學習中的基本演算法。該方法的思路為：如果一個樣本在特徵空間中的K個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一類別，那麼這個樣本也屬於這個類別。用官方的話來說，就是給定一個訓練資料集，對新的輸入例項，在訓練資

我與機器學習 - [Today is Knn] - [K-近鄰演算法]

優點：精度高，對異常值不敏感，無資料輸入假定缺點：計算複雜度高，空間複雜度高適用資料範圍：數值型和標稱型 k近鄰，也就是KNN演算法，他的工作原理是：一個有監督的學習，有一個帶有標籤的訓練集，訓練，當我們輸入沒有標籤的的新資料後，將新資料的每個特徵與訓練集中的每個特徵比較，然後演算法

K近鄰演算法的實現

##### Kd樹的實現 > K近鄰（KNN）演算法實現有很多種，比如全部遍歷，球樹，kd樹等等，這裡我們使用kd樹來實現KNN - 構造kd樹 ``` T = [[2,3],[5,4],[9,6],[4,7],[8,1],[7,2]] class myNode:

KNN ( K近鄰演算法 )

現在我們有一個訓練資料集，對新來的例項，找到訓練資料集中離這個新例項最近的K個例項，統計這K個例項的類別，然後利用多數表決或者其他策略預測新例項的類別這就是K近鄰演算法的基本思想。 K近鄰的這種分類方式其實相當於利用訓練資料集把特徵向量空間進行劃分，並且把這個劃分好的空

《Machine Learning In Action》學習筆記(1)-KNN(k-近鄰演算法)

knn演算法我在之前的部落格從零開始-Machine Learning學習筆記(20)-kNN(k-Nearset Neignbor)學習筆記中也已經提到了，大家如果感興趣可以回過頭去看看，knn原理非常簡單。不需要訓練，當有待分類樣本時，只需要從資料集中選取k個與這個樣本距離最近的

《機器學習實戰》—— KNN(K近鄰演算法)

《機器學習實戰》可以說是學習ML的必備書籍，連載本書中的重點演算法。重點在演算法和思想，避免涉及數學和理論推導。由於現在已經有現成的庫，不管是Sklearn還是keras，所以演算法基本不需要我們自己去寫，呼叫庫就可以，但是必須要知道如何要去調參，也就是每個

機器學習（K近鄰演算法程式碼實現迴歸）

K近鄰演算法進行迴歸預測一般步驟 1 資料的匯入與預處理 2 資料的標準化與歸一化 3 生成訓練集和測試集 4 利用訓練集進行訓練，匯入測試集得出預測值 5 真實值與與測試值進行比較評價 import csv import numpy as np import p

機器學習筆記1-k近鄰演算法的實現

k_近鄰演算法:採用測量不同特徵值之間的距離方法進行分類. 優點:精度高,對異常值不明感,無資料輸入假定缺點:計算複雜度高,空間複雜度高適用資料範圍:數值型和標稱型步驟如下: 1.計算一直類別資料集中的點御當前點之間的距離 2.按照距離的遞增次序排序 3.選取當前的點距

【機器學習實戰-kNN(k-近鄰)】python3實現-書本知識【1】

說明：本文內容為【Peter Harrington -機器學習實戰】一書的學習總結筆記。基本概念： kNN是聚類演算法中一種使用歐式定理計算各個特徵之間的距離而進行分類的基礎演算法，歐式定理：

K近鄰演算法(KNN)原理解析及python實現程式碼

KNN演算法是一個有監督的演算法，也就是樣本是有標籤的。KNN可以用於分類，也可以用於迴歸。這裡主要講knn在分類上的原理。KNN的原理很簡單：放入一個待分類的樣本，使用者指定k的大小，然後計算所有訓練樣本與該樣

小白python學習——機器學習篇——k-近鄰演算法（KNN演算法）

一、演算法理解一般給你一資料集，作為該題目的資料（一個矩陣，每一行是所有特徵），而且每一組資料都是分了類，然後給你一個數據，讓這個你預測這組資料屬於什麼類別。你需要對資料集進行處理，如：歸一化數值。處理後可以用matplotlib繪製出影象，一般選兩個特徵繪製x，y軸，然後核心是計算出預測點到

kNN k近鄰演算法的python實現

相關推薦