from numpy import *
import operator		#運算符模塊
from os import listdir  #os.listdir() 方法用於返回指定的文件夾包含的文件或文件夾的名字的列表。這個列表以字母順序。 它不包括 ‘.‘ 和‘..‘ 即使它在文件夾中。

def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])  #數據集
    labels = [‘A‘,‘B‘,‘C‘,‘D‘]    #標簽
    return group,labels

#歐氏距離公式:歐幾裏得度量(euclidean metric)(也稱歐氏距離)是一個通常采用的距離定義,指在m維空間中兩個點之間的真實距離,或者向量的自然長度(即該點到原點的距離)。在二維和三維空間中的歐氏距離就是兩點之間的實際距離
def classify0(inX, dataSet, labels, k):
	#inX:用於分類的輸入向量; dataSet:輸入的訓練樣本集; labels:標簽向量; k:選擇最近鄰居的數目
    dataSetSize = dataSet.shape[0]   
    diffMat = tile(inX, (dataSetSize,1)) - dataSet 
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
	 #平時用的sum應該是默認的axis=0 就是普通的相加 ,而當加入axis=1以後就是將一個矩陣的每一行向量相加
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()   
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)                              
	#reverse:排序規則. reverse = True 或者 reverse = False,有默認值。返回值:是一個經過排序的可叠代類型
    return sortedClassCount[0][0]

#step01 :因為直接用的人家的文件,所以我們這一步沒有收集數據,我們可以用python爬蟲進行海裏數據收集

#step02 : 準備數據:從文本文件中解析數據,得到距離計算所需要的數值
def file2matrix(filename):
    fr = open(filename)
    numberOfLines = len(fr.readlines())  
    #get the number of lines in the file
    returnMat = zeros((numberOfLines,3))       
    classLabelVector = []   
    fr = open(filename)
    index = 0
    for line in fr.readlines():                
	#.readline() 和 .readlines() 之間的差異是後者一次讀取整個文件,象 .read() 一樣。.readlines() 自動將文件內容分析成一個行的列表,該列表可以由 Python 的 for ... in ... 結構進行處理。另一方面,.readline() 每次只讀取一行,通常比 .readlines() 慢得多。僅當沒有足夠內存可以一次讀取整個文件時,才應該使用 .readline()
        line = line.strip()                     
        listFromLine = line.split(‘\t‘)    
        returnMat[index,:] = listFromLine[0:3]
        index += 1
    return returnMat,classLabelVector

#step02:   準備數據:歸一化數值
#newvalue = (oldValue-min)/(max-min)  將任意取值範圍的特征值轉化為0到1區間的值
def autoNorm(dataSet):
    minVals = dataSet.min(0)      
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals	   
    normDataSet = zeros(shape(dataSet))  
    m = dataSet.shape[0]         
    normDataSet = dataSet - tile(minVals, (m,1))
    normDataSet = normDataSet/tile(ranges, (m,1))   #element wise divide
    return normDataSet, ranges, minVals

#step03 :分析數據:使用Matplotlib創建散點圖

#step04: 測試算法:作為完整程序驗證分類器
def datingClassTest():
    hoRatio = 0.50      #hold out 10%
    datingDataMat,datingLabels = file2matrix(‘./datingTestSet2.txt‘)       #load data setfrom file
    normMat, ranges, minVals = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m*hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i])
        if (classifierResult != datingLabels[i]): errorCount += 1.0
    print "the total error rate is: %f" % (errorCount/float(numTestVecs))
    print errorCount

#step05  使用算法:構建完整可用系統
def classifyPerson():
	resultList = [‘not at all‘,‘in small doses‘,‘in large doses‘]
	percentTats = float(raw_input("percentage of time spent palying video games?"))
	ffMiles = float(raw_input("freguent filer miles earned per year?"))
	iceCream = float(raw_input("liters of ice cream consumed per year?"))
	datingDataMat,datingLabels = file2matrix(‘./datingTestSet2.txt‘)
	normMat,ranges,minVales = autoNorm(datingDataMat)
	inArr = array([ffMiles,percentTats,iceCream])
	classifierResult = classify0((inArr - minVales)/ranges,normMat,datingLabels,3)
	print "you will probably like this person:",resultList[classifierResult -1]




