機器學習實戰精讀--------K-近鄰算法

阿新 • • 發佈：2017-08-15

機器學習 knn算法 k-近鄰算法

對機器學習實戰的課本和代碼進行精讀，幫助自己進步。

#coding:utf-8
from numpy import *
import operator		#運算符模塊
from os import listdir  #os.listdir() 方法用於返回指定的文件夾包含的文件或文件夾的名字的列表。這個列表以字母順序。 它不包括 ‘.‘ 和‘..‘ 即使它在文件夾中。


#創建數據集和標簽
def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])  #數據集
    #python中的list是python的內置數據類型，list中的數據類不必相同的，而array的中的類型必須全部相同。在list中的數據類型保存的是數據的存放的地址，簡單的說就是指針，並非數據，這樣保存一個list就太麻煩了，例如list1=[1,2,3,‘a‘]需要4個指針和四個數據，增加了存儲和消耗cpu。
    labels = [‘A‘,‘B‘,‘C‘,‘D‘]    #標簽
    return group,labels

#實施KNN算法    
#歐氏距離公式：歐幾裏得度量（euclidean metric）（也稱歐氏距離）是一個通常采用的距離定義，指在m維空間中兩個點之間的真實距離，或者向量的自然長度（即該點到原點的距離）。在二維和三維空間中的歐氏距離就是兩點之間的實際距離
def classify0(inX, dataSet, labels, k):
	#inX:用於分類的輸入向量; dataSet:輸入的訓練樣本集; labels:標簽向量; k:選擇最近鄰居的數目
    dataSetSize = dataSet.shape[0]   
	#shape函數它的功能是讀取矩陣的長度，比如shape[0]就是讀取矩陣第一維度的長度。它的輸入參數可以使一個整數表示維度，也可以是一個矩陣。
    diffMat = tile(inX, (dataSetSize,1)) - dataSet 
	#他的功能是重復某個數組。比如tile(A,n)，功能是將數組A重復n次，構成一個新的數組
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
	 #平時用的sum應該是默認的axis=0 就是普通的相加 ,而當加入axis=1以後就是將一個矩陣的每一行向量相加
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()   
    #sort函數只定義在list中，sorted函數對於所有的可叠代序列都可以定義.
	#argsort()函數，是numpy庫中的函數，返回的是數組值從小到大的索引值.
    classCount={}          
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)                              
	#key：用列表元素的某個屬性和函數進行作為關鍵字，有默認值，叠代集合中的一項
	#reverse：排序規則. reverse = True 或者 reverse = False，有默認值。返回值：是一個經過排序的可叠代類型
    #operator模塊提供的itemgetter函數用於獲取對象的哪些維的數據，參數為一些序號（即需要獲取的數據在對象中的序號）
    return sortedClassCount[0][0]




#step01 ：因為直接用的人家的文件，所以我們這一步沒有收集數據，我們可以用python爬蟲進行海裏數據收集


#step02 : 準備數據：從文本文件中解析數據，得到距離計算所需要的數值
def file2matrix(filename):
    fr = open(filename)
	#打開文件，賦值給fr
    numberOfLines = len(fr.readlines())  
    #get the number of lines in the file
    returnMat = zeros((numberOfLines,3))       
	#創建給定類型的矩陣，並初始化為0,另一維度設置為固定數值3
    classLabelVector = []   
    fr.close()   
	#有打開就要有關閉                   
    fr = open(filename)
    index = 0
    for line in fr.readlines():                
	#.readline() 和 .readlines() 之間的差異是後者一次讀取整個文件，象 .read() 一樣。.readlines() 自動將文件內容分析成一個行的列表，該列表可以由 Python 的 for ... in ... 結構進行處理。另一方面，.readline() 每次只讀取一行，通常比 .readlines() 慢得多。僅當沒有足夠內存可以一次讀取整個文件時，才應該使用 .readline()
        line = line.strip()                     
		#截取掉所有的回車字符。
        listFromLine = line.split(‘\t‘)    
		#使用tab字符\t將上一步得到的整行數據分割成一個列表
        returnMat[index,:] = listFromLine[0:3]
		#選取前三個元素，將它們存儲到特征矩陣中
        classLabelVector.append(int(listFromLine[-1]))
		#將列表中最後一列存儲到向量classLabelVector中
        index += 1
	fr.close()
    return returnMat,classLabelVector




#step02:   準備數據：歸一化數值
#在處理這種不同取值範圍的特征值時，我們通常采用的方法是將數值歸一化 
#newvalue = (oldValue-min)/(max-min)  將任意取值範圍的特征值轉化為0到1區間的值
def autoNorm(dataSet):
    minVals = dataSet.min(0)      
	#從列中選取最小值，而不是當前行的最小值
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals	   
	#算出來數值範圍
    normDataSet = zeros(shape(dataSet))  
    m = dataSet.shape[0]         
    normDataSet = dataSet - tile(minVals, (m,1))
    normDataSet = normDataSet/tile(ranges, (m,1))   #element wise divide
    return normDataSet, ranges, minVals


#step03 :分析數據:使用Matplotlib創建散點圖



#step04: 測試算法：作為完整程序驗證分類器
def datingClassTest():
    hoRatio = 0.50      #hold out 10%
    datingDataMat,datingLabels = file2matrix(‘./datingTestSet2.txt‘)       #load data setfrom file
    normMat, ranges, minVals = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m*hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i])
        if (classifierResult != datingLabels[i]): errorCount += 1.0
    print "the total error rate is: %f" % (errorCount/float(numTestVecs))
    print errorCount

#step05  使用算法：構建完整可用系統
def classifyPerson():
	resultList = [‘not at all‘,‘in small doses‘,‘in large doses‘]
	percentTats = float(raw_input("percentage of time spent palying video games?"))
	ffMiles = float(raw_input("freguent filer miles earned per year?"))
	iceCream = float(raw_input("liters of ice cream consumed per year?"))
	datingDataMat,datingLabels = file2matrix(‘./datingTestSet2.txt‘)
	normMat,ranges,minVales = autoNorm(datingDataMat)
	inArr = array([ffMiles,percentTats,iceCream])
	classifierResult = classify0((inArr - minVales)/ranges,normMat,datingLabels,3)
	print "you will probably like this person:",resultList[classifierResult -1]

重點：

01：K-近鄰算法底層算法是歐式距離公式，計算m維空間中兩點之間的真實距離，或者向量的自然長度。

02：歸一化數值：

newvalue = (oldValue-min)/(max-min)  將任意取值範圍的特征值轉化為0到1區間的值

這個思想很重要。

體會：在我看來，整個機器學習從數據采集到最終的程序，整個流程特別重要，算法是核心，處理幹擾項的時候，我們用到了歸一化。

本文出自 “付煒超” 博客，謝絕轉載！

機器學習實戰精讀--------K-近鄰算法

機器學習 knn算法 k-近鄰算法對機器學習實戰的課本和代碼進行精讀，幫助自己進步。#coding:utf-8 from numpy import * import operator #運算符模塊 from os import listdir #os.listdir() 方法用於返回指定的文件夾包含的

機器學習實戰(一)k-近鄰算法

復雜 ssi bsp 體重工具等級 lap 問題種類　　轉載請註明源出處：http://www.cnblogs.com/lighten/p/7593656.html 1.原理　　本章介紹機器學習實戰的第一個算法——k近鄰算法（k Nearest Neighbor

機器學習實戰精讀--------FP-growth算法

fp-growth算法頻繁項集從數據集獲取有趣信息的方法：常用的兩種分別是頻繁項集和關聯規則。FP-growth：雖然可以高效的發現頻繁項集，但是不能用於發現關聯規則。FP-growth算法只需要對數據庫進行兩次掃描，速度要比Apriori算法塊。FP-growth發現頻繁項集的基本過程：① 構建FP樹

詳解機器學習中的K近鄰算法（上）

指定測試 mage 分數 info 模型參數 center 性能在人工智能中，機器學習是一個十分重要的內容，而在機器學習中，k近鄰算法是一個十分容易理解的機器學習算法。正因為容易理解，並且k近鄰算法也是一個十分重要的內容，所以我們在這幾篇文章中給大家介紹一下k近鄰算

詳解機器學習中的K近鄰算法（下）

img 同仁支持並且圖片自己 src 是什麽 k近鄰我們在上一篇文章中給大家介紹了很多關於K近鄰算法的知識，比如K近鄰算法的三要素、算法執行的步驟、應用領域以及註意事項，但是K近鄰算法的使用註意事項可能大家可能不是很清楚的，我們在這篇文章中針對這個問題進行解答，

Ubuntu機器學習python實戰(一)k-近鄰算法

0.12 繪圖 http tps eat 2.6 .sh 輸入重復 2018.4.18Python機器學習記錄一.Ubuntu14.04安裝numpy 1.參考網址 2.安裝代碼: 在安裝之前建議更新一下軟件源 : sudo apt-get update 如果py

機器學習之利用KNN近鄰算法預測數據

plt 部分制圖標簽預測最近鄰特征值 learn xlsx 前半部分是簡介, 後半部分是案例 KNN近鄰算法: 簡單說就是采用測量不同特征值之間的距離方法進行分類（k-Nearest Neighbor，KNN）優點: 精度高、對異常值不敏感、無數據輸入假定缺

機器學習實戰：K近鄰演算法--學習筆記

一、KNN的工作原理假設有一個帶有標籤的樣本資料集（訓練樣本集），其中包含每條資料與所屬分類的對應關係。輸入沒有標籤的新資料後，將新資料的每個特徵與樣本集中資料對應的特徵進行比較。 1）計算新資料與樣本資料集中每條資料的距離。 2）對求得的所有距離進

機器學習實戰之K近鄰改進的約會網站程式碼及手寫字型識別程式碼

from numpy import * import operator import os def createDataSet(): group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels=['A','A','B','B']

機器學習實戰筆記-K近鄰演算法2(改進約會網站的配對效果)

案例二.：使用K-近鄰演算法改進約會網站的配對效果案例分析: 海倫收集的資料集有三類特徵，分別是每年獲得的飛行常客里程數、玩視訊遊戲所耗時間百分比、每週消費的冰淇淋公升數。我們需要將新資

機器學習實戰之k-近鄰演算法（3）---如何視覺化資料

關於視覺化：《機器學習實戰》書中的一個小錯誤，P22的datingTestSet.txt這個檔案，根據網上的原始碼，應該選擇datingTestSet2.txt這個檔案。主要的區別是最後的標籤，作者原來使用字串‘veryLike’作為標籤，但是Python轉換會出現Val

《機器學習實戰》——k-近鄰演算法Python實現問題記錄

《機器學習實戰》第二章k-近鄰演算法，自己實現時遇到的問題，以及解決方法。做個記錄。 1.寫一個kNN.py儲存了之後，需要重新匯入這個kNN模組。報錯：no module named kNN. 解決方法：1.將.py檔案放到 site_packages 目錄下

機器學習實戰2--K近鄰

本部落格基於機器學習實戰這本書，主要是對機器學習的演算法原理及python實現進行詳細解釋，若是有些沒有闡述清楚的，看到的請指出。第二章的K近鄰演算法是一個簡單的機器學習演算法。 K近鄰演算法：原理：收集一個樣本資料集合，並且樣本集中每個資料都存在標籤

機器學習實戰之K-近鄰演算法總結和程式碼解析

機器學習實戰是入手機器學習和python實戰的比較好的書，可惜我現在才開始練習程式碼！先宣告：本人菜鳥一枚，機器學習的理論知識剛看了一部分，python的知識也沒學很多，所以寫程式碼除錯的過程很痛可！但是還是挨個找出了問題所在，蠻開心的！看了很多大牛

py2.7 : 《機器學習實戰》 k-近鄰演算法 11.19 更新完畢

主要有幾個總結的： 1.python支援檔案模組化，所以在同一個目錄下import就可以呼叫了； 2.中文註釋要加上 # -*- coding: utf-8 -*- 3.import numpy 和 from numpy import * 區別是，對於前者，呼叫的時候需要

【機器學習實戰-kNN(k-近鄰)】python3實現-書本知識【1】

說明：本文內容為【Peter Harrington -機器學習實戰】一書的學習總結筆記。基本概念： kNN是聚類演算法中一種使用歐式定理計算各個特徵之間的距離而進行分類的基礎演算法，歐式定理：

機器學習實戰之k-近鄰演算法（4）--- 如何歸一化資料

歸一化的公式： newValue = (oldValue - min) / (max - min) 就是把資料歸一化到[0, 1]區間上。好處：防止某一維度的資料的數值大小對距離就算產生影響。多個維度的特徵是等權重的，所以不能被數值大小影響。下面是歸一化特徵值的程式碼

機器學習實戰之第二章 k-近鄰算法

lifo -h 訓練數據 adl sdi 加載 erro orm 數據集第2章 k-近鄰算法 KNN 概述 k-近鄰（kNN, k-NearestNeighbor）算法主要是用來進行分類的. KNN 場景電影可以按照題材分類，那麽如何區分動作片和愛情片呢？

《機器學習實戰》學習筆記——k近鄰算法

eating 元組切片文件維度 mage python str eric 1.numpy中一些函數的用法學習 shape()用法： shape : tuple of ints The elements of the shape tuple give the le

《機器學習實戰》中的程序清單2-1 k近鄰算法classify0都做了什麽

列表關鍵字難解 items 位置 class 做了 ict top k def start(): group,labels = createDataSet() return classify0([3,3], group, l

機器學習實戰精讀--------K-近鄰算法

相關推薦