1. 程式人生 > >機器學習實戰--KNN 演算法 筆記

機器學習實戰--KNN 演算法 筆記

原始碼部分:

from numpy import *

import operator


def createDataSet():
group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels=['A','A','B','B']
return group,labels
def classify0(inX,dataSet,labels,k):
dataSetSize=dataSet.shape[0] 
diffMat=tile(inX,(dataSetSize,1))-dataSet 
sqDiffMat=diffMat**2
sqDistances=sqDiffMat.sum(axis=1)

distances=sqDistances**0.5
sortedDisIndicies=distances.argsort()
classCount={}
for i in range(k):
voteIlabel=labels[sortedDisIndicies[i]]
classCount[voteIlabel]=classCount.get(voteIlabel,0)+1
sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
return sortedClassCount[0][0]
def file2matrix(filename): 

fr=open(filename) 
arrayOLines=fr.readlines() 
numberOfLines=len(arrayOLines) 
returnMat=zeros((numberOfLines,3)) 
classLabelVector=[] 
index=0 
for line in arrayOLines:
line=line.strip() 
listFromLine=line.split('\t') 
returnMat[index,:]=listFromLine[0:3] 
classLabelVector.append(int(listFromLine[-1])) 
index +=1 

return returnMat,classLabelVector 
def autoNorm(dataSet):
minvals=dataSet.min(0) 
maxvals=dataSet.max(0)
ranges=maxvals-minvals
normDataSet=zeros(shape(dataSet))
m=dataSet.shape[0] 
normDataSet=dataSet-tile(minvals,(m,1))
normDataSet=normDataSet/tile(ranges,(m,1))
return normDataSet,ranges,minvals
def datingClassTest():
hoRatio=0.9
datingDataMat,datingLabels=file2matrix('datingTestSet2.txt')
normMat,ranges,minvals=autoNorm(datingDataMat)
m=normMat.shape[0]
numTestVecs=int(m*hoRatio)
errorCount=0.0 
for i in range(numTestVecs):
classifierResult=classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
print "the classifier came back with: %d,the real answer is:%d" %(classifierResult,datingLabels[i])
if(classifierResult!=datingLabels[i]):errorCount+=1.0
print "the total error rate is: %f"%(errorCount/float(numTestVecs))
def classifyPerson():
resultList=['not at all','in samll doses','in large doses']
percentTats=float(raw_input("percentage of time spent playing video games?"))
ffMiles=floats=float(raw_input("frequent flier miles earned per year?")) 
iceCream=float(raw_input("liters of ice cream consuned per year?")) 
datingDataMat,datingLabels=file2matrix('datingTestSet2.txt') 
normMat,ranges,minvals=autoNorm(datingDataMat) 
inArr=array([ffMiles,percentTats,iceCream]) 
classifierResult=classify0((inArr-minvals)/ranges,normMat,datingLabels,3)

print "you will probably like this person:" ,resultList[classifierResult-1]

筆記部分: 

1:K-近鄰演算法是採用測量不同特徵值之間的距離方法進行分類。
2:K-近鄰演算法(KNN)的工作原理:存在一個樣本資料集合,也稱為訓練樣本集,並且樣本集中每個資料都存在標籤,
即我們知道樣本中每一個數據與所屬分類的對應關係。簡單演算法訓練樣本集的定義如下:定義一個KNN模組,
from numpy import * /*匯入numpy模組 科學計算包
import operator /*匯入operator模組 運算子模組


def createDataSet():/*建立一個函式
group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) /*定義樣本訓練集
labels['A','A','B','B'] /*定義資料標籤
return group,labels
簡單來說,該函式中自定義了一個樣本訓練集和樣本資料標籤,然後通過return返回。
3:輸入沒有標籤的新資料後,將新資料的每個特徵與樣本中資料對應的特徵就行比較,然後演算法提取樣本集中特徵最
相似資料(最鄰近)的分類標籤。一般來說,我們只選擇樣本資料集中前K個最相似的資料,這就是K-近鄰演算法中K
的由來,通常K是不大於20的整數。最後,選擇K個最相似資料中出現最多次數的分類,作為新資料的分類。
大致演算法程式碼如下:
def classify0(inX,dataSet,labels,k):/* inx為分類的輸入向量 dataSet=group labels=labels
dataSetSize=dataSet.shape[0] /*取到訓練集的大小 即列數 為4
diffMat=tile(inX,(dataSetSize,1))-dataSet /* tile函式指的是把inX重複dataSetSize次,1表示在列
方向,不帶引數表示行方向。numpy.tile函式首先要
sqDiffMat=diffMat**2 匯入numpy模組
sqDistances=sqDiffMat.sum(axis=1) /*sum(axis=1)表示按列相加 axis=0表示按行相加
以上三行程式碼都是計算兩點之間距離
distances=sqDistances**0.5
sortedDisIndicies=distances.argsort()/* 升序排列distances內部距離 但是 返回值是從小到大的索
引值 sortedDisIndicies中儲存的是distances的編號
不是存的distances中的資料
classCount={}/*定義了一個空字典
for i in range(k):/*產生一個從0到k-1的整數列表 i遍歷
voteIlabel=labels[sortedDisIndicies[i]]
classCount[voteIlabel]=classCount.get(voteIlabel,0)+1
sortedClassCount=soted(classCount.iteritems(),key=operator.itemgetter(1),reverse=true)
returen sortedClassCount[0][0] /*返回該字典列表中的第一個 也就是最大的 即出現次數最多的
items() 向下相容了iteritems() 前者是3.3版本 後者是2.7版本
4:從文字中解析資料 資料集儲存在ch02中 文字文件名稱為datingTestSet2.txt 前三行分別表示
a:每年獲得的飛行常客里程數
b:玩視訊遊戲所消耗時間百分比
c:每週消耗的冰激凌公升數
d:感興趣度 
首先,我們將文字記錄轉換到Numpy的解析程式中
def file2matrix(filename): /*操作文字文件
fr=open(filename) /*開啟文件
arrayOLines=fr.readlines() /*讀取行數 存在陣列中 其中 匯入後每行中用\t隔開 兩行之間用\n換行
numberOfLines=len(arrayOLines) /*計算多少行
returnMat=zeros((numberOfLines,3)) /*numberoflines行,3列的初始化零的矩陣
classLabelVector=[] /*定義一個空的陣列
index=0 /*初始化索引值為零
for line in arrayOLines: /*遍歷陣列
line=line.strip() /*刪除()中的 在此處表示刪除空格 刪除\n
listFromLine=line.split('\t') /*以\t 分割 並單一保持 
returnMat[index,:]=listFromLine[0:3] /*把a,b,c存入returnMat中的每行 每行中儲存三個
classLbelVector.append(int(listFromLine[-1])) /*儲存d 在陣列中append 新增
index +=1 /*索引自增
return returnMat,classLabelVector /*返回abc 返回感興趣度 到此文字記錄解析完畢 
5:以上我們得到了資料,並且把資料解析,之後我們利用matplotlib進行繪製原始資料的散點圖,
首先匯入包
import matplotlib
import matplotlib.pyplot as plt
fig=plt.figure() /*建立畫板
ax=fig.add_subplot(111) /*新增一個子圖
ax.scatter(datingDataMat[:,1],datingDataMat[:,2]) /* scatter 繪製散點圖
plt.show() /* 顯示
6:類似的我們計算距離,在計算距離中,b的權值過重,我們需要把數值歸一化,也就是把所有資料都換算到0-1之間的
小數:
newvalue=(nowvalue-minvalue)/(max-min)
7:在kNN.py中新增一個歸一化的函式,這是為了求出的距離對abc的依賴程度相同,而不是過分依賴與b。
def autoNorm(dataSet):
minvals=dataSet.min(0) /*取得最小值 每列的最小值
maxvals=dataSet.max(0)
ranges=maxvals-minvals
normDataSet=zeros(shape(dataSet))/*去dataSet的行數 然後zeros 建立根據該行數的陣列 方便儲存資料
m=dataSet.shape[0] /*dataSet的行數 
normDataSet=dataSet-tile(minvals,(m,1))
normDataSet=normDataSet/tile(ranges,(m,1))/*歸一化最終值
return normDataSet,ranges,minvals
8:在kNN.py中新增一個測試函式,樣本集中百分之九十的資料用來訓練樣本,百分之十的樣本用來測試分類器kNN.classify0()。
以下是測試函式:
def datingClassTest()
hoRatio=0.10 /* 百分之十的資料用於測試分類器 更改該變數的值可更改參加測試分類器的資料量
datingDataMat,datingLabels=file2matrix('datingTestSet2.txt')/*匯入資料
normMat,ranges,minvals=autoNorm(datingDataMat)/*前三列資料進行歸一化
/*這裡如果ranges寫作range會報錯 但是錯誤會提示在for語句 提示語句是
:numpy.ndarray object is not callable 語句意思是該物件不能重複使用
但是錯誤是for 語句中range變數在之前被呼叫了 所以比較難以判斷
m=normMat.shape[0] /*得到總行數
numTestVecs=int(m*hoRatio) /* m*hoRatio 是一個浮點型,陣列中【A】,A是整數,所以轉化成整形
errorCount=0.0 /*初始錯誤率為0.0
for i in range(numTestVecs): /*設定迴圈 然後測試分類
classifierReasult=classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
/* 分類器(需要測試的向量,訓練樣本集(90%),標籤集合,K)
print "the classifier came back with: %d,the real answer is:%d" %(classifierReasult,datingLabels[i])
if(classifierReasult!=datingLabels[i]):errorCount+=1.0
print "the total error rate is: %f"%(errorCount/float(numTestVecs)) /* 錯誤率 
/*最後得出結果 5%的錯誤率 機器學習實戰書上算的2.4% 
/* 在不改變其他值的前提下 改變hoRatio的值 [0.05,0.1,0.2,0.3,0.4,0.5,0.9]對應的錯誤率[2%,5%,8%,8%,7%,6%,7%] 
9:在測試結束,我們力求得出一個對於未來的約會預測函式,在我們輸入飛行里程數,玩視訊遊戲的百分比和冰激凌公升數,我們希望
得到一個關於這方面預測的結果,我們到底是不是感興趣他,下面我們給出程式碼。
def classifyPerson():
resultList=['not at all','in samll doses','in large doses'] /*感興趣程度
percentTats=float(raw_input("percentage of time spent playing video games?"))
ffMiles=floats=float(raw_input("frequent flier miles earned per year?")) 
iceCream=float(raw_input("liters of ice cream consuned per year?")) /* raw_input 提供了輸入功能
datingDataMat,datingLabels=file2matrix('datingTestSet2.txt') /* 匯入資料
normMat,ranges,minvals=autoNorm(datingDataMat) /* 歸一化 ranges是歸一化的分母
inArr=array([ffMiles,percentTats,iceCream]) /* inArr 就是歸一化之前的datingDataMat陣列中的行
classifierResult=classify0((inArr-minvals)/ranges,normMat,datingLabels,3)/*先歸一化 然後呼叫分類函式
print "you will probably like this person:" resultList[classifierResult-1]