機器學習實戰-第二章代碼+註釋-KNN

阿新 • • 發佈：2018-06-20

rep sdn odi als cti 元素集合 pre recv

#-*- coding:utf-8 -*-
#https://blog.csdn.net/fenfenmiao/article/details/52165472
from numpy import * #科學計算包

import operator #運算符模塊
import matplotlib
import matplotlib.pyplot as plt
#matplotlib.pyplot是一些命令行風格函數的集合

from os import listdir #列出給定目錄的文件名

def createDataSet():
    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
    labels  
= [‘A‘, ‘A‘, ‘B‘, ‘B‘]
    return group, labels

def classify0(inX, dataSet, labels, k) :
    dataSetSize = dataSet.shape[0]  #查看矩陣或者數組的維數     c.shape[1] 為第一維的長度，c.shape[0] 為第二維的長度 此處為4

    #(dataSetSize, 1)使數組重復完是四行一樣的  而不是在1行中。
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet     #numpy.tile(A,reps) tile共有2個參數，A指待輸入數組，reps則決定A重復的次數。整個函數用於重復數組A來構建新的數組。 

    sqDiffMat = diffMat ** 2    #冪  （x1 - x2）的冪
    sqDistance = sqDiffMat.sum(axis = 1)    #每行相加    橫著相加
    distances = sqDistance ** 0.5   #開根號
    sortedDistIndicies = distances.argsort()    #argsort是排序，將元素按照由小到大的順序返回下標
    classCount = {} #dict字典數據類型，字典是Python中唯一內建的映射類型
    for i in range(k) :
        voteIlabel  
= labels[sortedDistIndicies[i]]
        #get是取字典裏的元素，如果之前這個voteIlabel是有的，那麽就返回字典裏這個voteIlabel裏的值，如果沒有就返回0（後面寫的），這行代碼的意思就是算離目標點距離最近的k個點的類別，這個點是哪個類別哪個類別就加1
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
    #key=operator.itemgetter(1)的意思是按照字典裏的第一個排序，{A:1,B:2},要按照第1個（AB是第0個），即‘1’‘2’排序。reverse=True是降序排序
    sortedClassCount = sorted(classCount.iteritems(), key = operator.itemgetter(0), reverse = True)
    return sortedClassCount[0][0]

def file2matrix(filename):
    fr = open(filename)
    # 一次讀取整個文本數據，並且自動將文件內容分析成一個行的列表，比readline（）快 ，後面的img2vector就是使用的readline（），因為要逐行逐個讀取，可以對比一下
    arrayOLines = fr.readlines()
    numberOfLines = len(arrayOLines)
    #返回來一個給定形狀和類型的用0填充的數組;
    returnMat = zeros((numberOfLines, 3))   #文件有幾行就是幾行，設置為3列（可調）
    classLabelVector = []
    index = 0
    for line in  arrayOLines :
        line = line.strip() #去掉回車符
        listFromLine = line.split(‘\t‘) #分成了4列數據，得到了4個列表
        #將數據前三列提取出來,存放到returnMat的NumPy矩陣中,也就是特征矩陣
        returnMat[index, :] = listFromLine[0 : 3]    #前3個列表元素是愛倫要的特征，取出來去填充returnMat
        #classLabelVector.append(int(listFromLine[-1]))
        if listFromLine[-1] == ‘didntLike‘:
            classLabelVector.append(1)
        elif listFromLine[-1] == ‘smallDoses‘:
            classLabelVector.append(2)
        elif listFromLine[-1] == ‘largeDoses‘:
            classLabelVector.append(3)
        index += 1
    return returnMat, classLabelVector

#歸一化
def autoNorm(dataSet) :
    #min(0)返回該矩陣中每一列的最小值
    #min(1)返回該矩陣中每一行的最小值
    #max(0)返回該矩陣中每一列的最大值
    #max(1)返回該矩陣中每一行的最大值
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    #得到數據集的行數  shape方法用來得到矩陣或數組的維數
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m, 1))
    normDataSet = normDataSet / tile(ranges, (m, 1))
    return normDataSet, ranges, minVals


def datingClassTest() :
    hoRatio = 0.10
    datingDataMatm, datingLabels = file2matrix(‘F:\jxq\Desktop\datingTestSet.txt‘)
    normMat, ranges, minVals = autoNorm(datingDataMat)   #歸一化
    m = normMat.shape[0]    #二維數組維度大小
    numTestVecs = int(m * hoRatio)  #訓練樣本從第m * hoRatio 開始
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i, :], normMat[numTestVecs:m, :], datingLabels[numTestVecs : m], 3)
        print("the classifier came back with : %d, the real answer is : %d" % (classifierResult, datingLabels[i]))
        if (classifierResult != datingLabels[i]) :
            errorCount += 1.0

    print("the total error rate is : %f" % (errorCount / float(numTestVecs)))


def classifyPerson() :
    resultList = [‘not at all‘, ‘in small doses‘, ‘in large doses‘]
    percentTats = float(raw_input("percentage of time spent playing video games?"))
    ffMiles = float(raw_input("frequent flier miles earned per year?"))
    iceCream = float(raw_input("liters of ice cream consumed per year?"))
    datingDataMat, datingLables = file2matrix(‘F:\jxq\Desktop\datingTestSet.txt‘)
    normMat, ranges, minVals = autoNorm(datingDataMat)
    inArr = array([ffMiles, percentTats, iceCream])
    classifierResult = classify0((inArr-minVals)/ranges, normMat, datingLables, 3)
    print ("You will probably like this person:", resultList[classifierResult - 1]) #索引從0開始，索引減去1才能索引到對應的resultList

def img2vector(filename) :
    returnVect = zeros((1, 1024))   # 用於保存1x1024的向量
    fr = open(filename)
    for i in range(32) :
        lineStr = fr.readline()
        for j in range(32) :
            returnVect[0, 32*i+j] = int(lineStr[j]) # 字符需要強制類型轉換成整數

    return returnVect

def handwritingClassTest() :
    hwLabels = []
    #獲取目錄內容
    trainingFileList = listdir(‘F:\\jxq\\Documents\\Tencent Files\\834810071\\FileRecv\\machinelearninginaction-master\\machinelearninginaction-master\\Ch02\\digits\\trainingDigits‘)
    m = len(trainingFileList)
    trainingMat = zeros((m, 1024))
    for i in range(m) :
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split(‘.‘)[0] #無後綴文件名
        classNumStr = int(fileStr.split(‘_‘)[0]) #獲取文件內的數字
        hwLabels.append(classNumStr)
        #圖片轉換為向量
        trainingMat[i, :] = img2vector(‘F:\\jxq\\Documents\\Tencent Files\\834810071\\FileRecv\\machinelearninginaction-master\\machinelearninginaction-master\\Ch02\\digits\\trainingDigits\\%s‘ %fileNameStr)
    testFileList = listdir(‘F:\\jxq\\Documents\\Tencent Files\\834810071\\FileRecv\\machinelearninginaction-master\\machinelearninginaction-master\\Ch02\\digits\\testDigits‘)
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split(‘.‘)[0]
        classNumStr = int(fileStr.split(‘_‘)[0])
        vectorUnderTest = img2vector(‘F:\\jxq\\Documents\\Tencent Files\\834810071\\FileRecv\\machinelearninginaction-master\\machinelearninginaction-master\\Ch02\\digits\\testDigits\\%s‘ %fileNameStr)
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3) #分類
        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))
        if (classifierResult != classNumStr) :
            errorCount += 1.0
    print("\nthe total number of error is: %d" %errorCount)
    print("\nthe total error rate is: %f" %(errorCount/float(mTest)))

if __name__ == ‘__main__‘:
    #filename = ‘F:\jxq\Desktop\datingTestSet.txt‘
    #datingDataMat, datingLabels = file2matrix(filename)
    ‘‘‘
    print(datingDataMat)
    print(datingLabels)
    fig = plt.figure()  #figure()來創建多個圖
    ax = fig.add_subplot(111)   #參數349的意思是：將畫布分割成3行4列，圖像畫在從左到右從上到下的第9塊
    #後兩個是顏色
    ax.scatter(datingDataMat[:, 1], datingDataMat[:, 2], 15.0*array(datingLabels), 15.0*array(datingLabels))    #繪制散點圖  X[:,0]就是取所有行的第0個數據, X[:,1] 就是取所有行的第1個數據
    ‘‘‘
    ‘‘‘
    normMat, range, minVals = autoNorm(datingDataMat)
    print(normMat)
    print(range)
    print(minVals)
    ‘‘‘
    #datingClassTest()
    #plt.show()
    #classifyPerson()
    #testVector = img2vector(‘F:\\jxq\\Documents\\Tencent Files\\834810071\\FileRecv\\machinelearninginaction-master\\machinelearninginaction-master\\Ch02\\digits\\testDigits\\0_13.txt‘)
    #print(testVector[0, 0:31])
    #print(testVector[0, 32:63])
    handwritingClassTest()

機器學習實戰-第二章代碼+註釋-KNN

rep sdn odi als cti 元素集合 pre recv #-*- coding:utf-8 -*- #https://blog.csdn.net/fenfenmiao/article/details/52165472 from numpy import *

機器學習實戰第二章KNN（1）python程式碼及註釋

#coding=utf8 #KNN.py from numpy import * import operator def createDataSet(): group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) #我覺

機器學習實戰第二章----KNN

BE 指定 cto 文件轉換 .sh ati subplot OS umt tile的使用方法 tile(A,n)的功能是把A數組重復n次（可以在列方向，也可以在行方向） argsort()函數 argsort()函數返回的是數組中值從大到小的索引值 dict.get()

機器學習實戰第二章——學習KNN演算法，讀書筆記

K近鄰演算法（簡稱KNN）學習是一種常用的監督學習方法，給定測試樣本，基於某種距離度量找出訓練集中與其最靠近的k個訓練樣本，然後基於這k個“鄰居”的資訊來進行預測。通常在分類任務中可以使用“投票法”，即

機器學習實戰第二章記錄

第二章講的是K-鄰近演算法from numpy import*import operatordef createDataSet(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ['A',

讀書筆記：機器學習實戰(2)——章3的決策樹程式碼和個人理解與註釋

首先是對於決策樹的個人理解：通過尋找最大資訊增益（或最小資訊熵）的分類特徵，從部分已知類別的資料中提取分類規則的一種分類方法。資訊熵：其中，log底數為2，額，好吧，圖片我從百度截的。。這裡只解釋到它是一種資訊的期望值，深入的請看維基百科

讀書筆記：機器學習實戰(5)——章6的支援向量機程式碼和個人理解與註釋

時隔好久，前幾章部落格是去年看的時候寫的，後來只看書沒有繼續寫，再後來忙著專案，連書都很少看了。然後是忙完專案後的空白期的瘋狂看書，看了很多資料結構演算法，設計模式，程式碼整潔，專案可重構方面的書。年後重新把《機器學習實戰》後面的章節讀完，現在開始整理筆記。

《機器學習》第二章概念學習和一般到特殊序

hang 描述兩個 str 依賴實例 sport 遊泳 win 《機器學習》第二章概念學習和一般到特殊序 2.1.簡介布爾函數一般形式：F(b1, b2, ..., bn)，其中 bi的定義域為{0,1}，F的值域為{0, 1}。在一般的定義域上的，取值在 {

機器學習樣本標記示意代碼

數據的分布 sep 其他 main input ilo %d ict ups 目標：根據各個字段數據的分布（例如srcIP和dstIP的top 10）以及其他特征來進行樣本標註，最終將幾類樣本分別標註在black/white/ddos/mddos/cdn/unknown幾類

分享《TensorFlow機器學習實戰指南+PDF+源碼+尼克.麥克盧爾+ 曾益強

text 書籍 shadow 英文版 follow 英文 ref ecc 資料 2018-11-01 19:37:54下載：https://pan.baidu.com/s/1eNXbL6eXb01ABzCV-VRZPw 更多資料分享：http://blog.51cto.co

分享《機器學習實戰》+PDF+源碼+Peter Harrington+李銳

英文 peter 學習 ima cto 中英文粘貼圖片中文版下載：https://pan.baidu.com/s/1JNZvA2BtZl2G1-fYikN_Pg 更多資料分享：http://blog.51cto.com/14087171 《機器學習實戰》(高清中文版

python入門機器學習，3行代碼搞定線性回歸

如何技術 sklearn 模擬我們容易平均值入門思考　　本文著重是重新梳理一下線性回歸的概念，至於幾行代碼實現，那個不重要，概念明確了，代碼自然水到渠成。　　“機器學習”對於普通大眾來說可能會比較陌生，但是“人工智能”這個詞簡直是太火了，即便是風雲變化的股市

吳恩達機器學習（第二章）----線性迴歸

線性迴歸要做的主要包含代價函式和梯度下降。一、基本解釋線性迴歸的過程其實就是我們在選擇好某個型別的函式之後去不斷的擬合現有的資料，那麼什麼情況下我們這個函式是最符合，最貼近我們這些資料的呢？就是在代價函式的值最小的時候。二、代價函式假設要擬合的函式是h(x)=

機器學習實戰第一章----機器學習基礎小結

機器學習學習基礎一章先介紹了機器學習的概念，講解了機器學習可以幹什麼，遇到實際問題時應該怎麼選擇合適的機器學習演算法，簡單介紹了機器學習應用程式的步驟，介紹了機器學習實戰過程中當前使用最多的語言python和機器學習中常用的函式庫numpy。機器學習是當前I

機器學習基礎第二章預測演算法

1 一元線性迴歸 1.1 為什麼用迴歸圖1.1.1 Google的票房與搜尋量的關係圖1.1顯示的是Google釋出的電影的搜尋量與票房的關係。如何用歷史的資訊預測票房就是（線性）迴歸問題。 1.2 一元線性迴歸模型 1 數學描述圖

機器學習實戰-第一章

機器學習的價值在於發現數據背後的價值，將雜亂的資料轉化為資訊。因為我們無法建立精確的模型，所以我們要應用統計學。關鍵術語：在監督學習中：特徵，目標值，目標值也叫作類別。無監督學習（我現在對無監督學習的理解就是聚類）：聚類，尋找描述資料統計值的過程稱為密度估計。無監督

機器學習實戰 k-近鄰算法實施kNN分類算法

OS 環境 clas attr blog 環境變量變量技術機器學習 2.預測數據分類時，出現 ‘dict’ object has no attribute ‘iteritems‘ 如：最常見的解決辦法是更改環境變量順序如註意：哪個版本在上面，cmd

機器學習實戰（一）k-近鄰kNN（k-Nearest Neighbor）

目錄 0. 前言 1. k-近鄰演算法kNN（k-Nearest Neighbor） 2. 實戰案例 2.1. 簡單案例 2.2. 約會網站案例 2.3. 手寫識別案例學習完機器學習實戰的k-近鄰演算法，簡單的做個筆記。文中

【機器學習實戰系列】讀書筆記之KNN演算法（三）

本次讀書筆記在於延續上一篇部落格的工程，做出微小的改動，即使用Matplotlib建立散點圖（散點圖使用DataMat矩陣的第一、第二列資料）。首先還是介紹一個相關知識點，方便程式碼瀏覽。知識點一：1、在使用Matplotlib生成圖表時，預設不支援漢字，所有漢字都會顯示成框

《機器學習實戰》第7章的一處代碼錯誤

traceback com post cond 解決 elm back document image --------------------------------------------------------------------------- IndexError

機器學習實戰-第二章代碼+註釋-KNN

相關推薦