《機器學習實戰》——KNN演算法實戰篇

阿新 • • 發佈：2019-02-12

#-*-coding:utf-8-*-
from numpy import *
import operator
from os import listdir

"""
KNN演算法的原理：
存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一資料
與所屬分類的對應關係。輸人沒有標籤的新資料後，將新資料的每個特徵與樣本集中資料對應的特徵進行比較，
然後演算法提取樣本集中特徵最相似資料（最近鄰）的分類標籤。一般來說，我們只選擇樣本資料集中前k個最
相似的資料，這就是 k 近鄰演算法中k的出處 , 通常k是不大於 20 的整數。最後，選擇 k個最相似資料中
出現次數最多的分類，作為新資料的分類。

 構造資料集 -> 歸一化特徵值 -> 分類 -> 測試錯誤率(調整k值) -> 投入使用
"""

#構造資料集
def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group,labels

#-------------------------------------------使用k近鄰演算法改進約會網站的配對效果-----------------------------------------------
"""
------calssify0()------
------inX: 用於分類的輸入向量
------dataSet: 輸入的訓練樣本集
------labels: 標籤向量（標籤向量的元素數目==dataSet的行數）
------k: 用於選擇最近鄰居的數目
"""

#用KNN進行預測
def classify0(inX,dataSet,labels,k):
    # array.shape返回一個元組（行數，列數），shape[0]表示的是行數
    dataSetSize = dataSet.shape[0]

    #計算距離，使用的是歐氏距離公式
    """
    ----------------tile()--------------------
    函式格式tile(A,reps)
    A和reps都是array_like
    A的型別眾多，幾乎所有型別都可以：array, list, tuple, dict, matrix以及基本資料型別int, string, float以及bool型別。
    reps的型別也很多，可以是tuple，list, dict, array, int, bool.但不可以是float, string, matrix型別。
    例如：
    >>> b=[1,3,5]
    >>> tile(b,[2,3])
    array([[1, 3, 5, 1, 3, 5, 1, 3, 5],
          [1, 3, 5, 1, 3, 5, 1, 3, 5]])
    """
    diffMat = tile(inX,(dataSetSize,1)) - dataSet
    sqDiffMat = diffMat ** 2
    """
    ----------------mat.sum()--------------------
    a1=mat([[1,1],[2,3],[4,2]]);
    a2=a1.sum(axis=0);//列和，這裡得到的是1*2的矩陣
    a3=a1.sum(axis=1);//行和，這裡得到的是3*1的矩陣
    a4=sum(a1[1,:]);//計算第一行所有列的和，這裡得到的是一個數值
    """
    sqDistances = sqDiffMat.sum(axis = 1)   #行和，這裡得到的是4*1的矩陣
    distances = sqDistances ** 0.5

    #選擇距離最小的k個點
    """
    ----------------array.argsort()--------------------
    argsort函式返回的是陣列值從小到大的索引值
    >>> x = np.array([3, 1, 2])
    >>> np.argsort(x)
    array([1, 2, 0])
    """
    sorteDistIndicies = distances.argsort()
    #定義一個字典
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sorteDistIndicies[i]]
        """
        ----------------dict.get()--------------------
        Python 字典 get() 方法和 setdefault() 方法類似,返回指定鍵的值，如果鍵不在字典中，返回一個指定值，預設為None。
        key -- 字典中要查詢的鍵。
        default -- 可選引數，如果指定鍵的值不存在時，返回該值，預設為 None。
        """
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1

    #排序
    """
    ----------------sorted()--------------------
    sorted(iterable[, cmp[, key[, reverse]]])
    sorted() 函式對所有可迭代的物件進行排序操作。
    sort 與 sorted 區別：
    sort 是應用在 list 上的方法，sorted 可以對所有可迭代的物件進行排序操作。
    list 的 sort 方法返回的是對已經存在的列表進行操作，而內建函式 sorted 方法返回的是一個
    新的 list，而不是在原來的基礎上進行的操作。
    # sorted()可以利用引數reverse=True進行反向排序
    >>>list=[3,4,2,6,1]
    >>>sorted(list)
    [1, 2, 3, 4, 6]
    >>>sorted(list, reverse=True)
    [6, 4, 3, 2, 1]
    """
    """
    ----------------dict.items()--------------------
    字典(Dictionary) items() 函式以列表返回可遍歷的(鍵, 值) 元組陣列。
    返回可遍歷的(鍵, 值) 元組陣列。
    """
    """
    ----------------operator.itemgetter()--------------------
    operator模組提供的itemgetter函式用於獲取物件的哪些維的資料，引數為一些序號（即需要獲取的資料在物件中的序號），下面看例子。
    a = [1,2,3] 
    >>> b=operator.itemgetter(1)      //定義函式b，獲取物件的第1個域的值
    >>> b(a) 
    2 
    要注意，operator.itemgetter函式獲取的不是值，而是定義了一個函式，通過該函式作用到物件上才能獲取值。
    """
    sortedClassCount = sorted(classCount.items(),
                              key = operator.itemgetter(1),
                              reverse = True)

    #返回k個最近鄰居出現頻率最高的類別，作為當前inX的預測分類
    return sortedClassCount[0][0]

#將文字記錄轉換為Numpy的解析程式
def file2matrix(filename):
    fr = open(filename)
    arrayOLines = fr.readlines()#將每一行內容作為一個元素，共同組成一個列表
    numberOfLines = len(arrayOLines)#列表長度，即列表成員個數
    returnMat = zeros((numberOfLines,3))#用0填充一個(numberOfLines*3)的矩陣
    classLabelVector = []#用於儲存每條資料所對應的類別
    index = 0
    for line in arrayOLines:
        """
        ----------------str.strip()--------------------
        Python strip() 方法用於移除字串頭尾指定的字元（預設為空格或換行符）。
        語法：str.strip([chars]);
        """
        line = line.strip()
        listFromLine = line.split('\t')
        returnMat[index,:] = listFromLine[0:3]
        classLabelVector.append(int(listFromLine[-1]))
        index += 1
    return returnMat, classLabelVector

# 歸一化特徵值
def autoNorm(dataSet):
    """
    ----------------mat.min()--------------------
    a = np.array([[1,5,3],[4,2,6]])  
    print(a.min()) #無參，所有中的最小值  
    print(a.min(0)) # axis=0; 每列的最小值 ,得到1*3的矩陣
    print(a.min(1)) # axis=1；每行的最小值 ,得到2*1的矩陣
    """
    minVals = dataSet.min(0)#得到1*3的矩陣
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))#shape(矩陣)，返回一個元組（行數，列數）
    m = dataSet.shape[0]#矩陣的行數
    normDataSet = dataSet - tile(minVals,(m,1))
    normDataSet = normDataSet/tile(ranges,(m,1))
    return normDataSet, ranges, minVals

'''
----------------datingClassTest()------------------
用於測試knn預測結果的錯誤率
首先把資料集datingDataMat分為兩部分：測試集(0-numTestVecs)和訓練集(numTestVecs-m)
'''
def datingClassTest():
    # hoRatio 是測試集佔資料集的比例
    hoRatio = 0.1
    datingDataMat,datingLabels = file2matrix('datingData.txt')
    normMat,ranges,minVals = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m*hoRatio) #測試集的資料項數目
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:],\
                                     normMat[numTestVecs:m,:],\
                                     datingLabels[numTestVecs:m],\
                                     3)
        print('the classifier came back with: %d,the real answer is:%d'\
              % (classifierResult, datingLabels[i]))
        if(classifierResult != datingLabels[i]):
            errorCount += 1.0
    print('the total error rate is: %f' % (errorCount/float(numTestVecs)))

#約會網站預測函式
"""
每年獲得的飛行常客里程數     玩視訊遊戲所耗時間百分比   每週消費的冰激凌公升數         分類
         7-10                 7-10                    1-3             極具魅力的人
         4-6                  4-6                     4-6             魅力一般的人
         1-3                  1-3                     7-10            不喜歡
"""
def classifyPerson():
    resultList = ['in large doses','in small doses','not at all']
    """
    -----------------input()----------------------
    python2.x 用的是 raw_input()
    python3.x 用的是 input()
    """
    percentTats = float(input(\
        'percentage of time spent playing video games:'))
    ffMiles = float(input(\
        'frequent flier miles earned per years：'))
    iceCream = float(input(\
        'liters of ice cream consumed per year：'))
    datingDataMat,datingLabels = file2matrix('datingData.txt')
    normMatm,ranges,minVals = autoNorm(datingDataMat)
    inArr = array([ffMiles,percentTats,iceCream])
    classifierResult = classify0((inArr-minVals)/ranges,\
                                 normMatm,datingLabels,3)
    print('You will probably like this person:%s'\
          % resultList[classifierResult - 1])


#----------------------------------------------------使用 k-近鄰演算法 識別手寫數字---------------------------------------------------
"""
--------------------img2vector()-------------------------
該函式建立1×1024的NumPy陣列，然後開啟給定的檔案，迴圈讀出檔案的前32行，
並將每行的頭32個字元值儲存在NumPy陣列中，最後返回陣列
"""
def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect

"""
--------------------handwritingClassTest()-------------------------
手寫數字識別系統的測試程式碼
"""
def handwritingClassTest():
    hwLabels = []
    trainingFileList = listdir('digits//trainingDigits')
    m = len(trainingFileList)
    trainingMat = zeros((m,1024))
    for i in range(m):
        #該目錄下的檔案按照規則命名，如檔案9_45.txt的分類是9，它是數字9的第45個例項
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        trainingMat[i,:] = img2vector('digits//trainingDigits//%s' % fileNameStr)
    testFileList = listdir('digits//testDigits')
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('digits//testDigits//%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest,\
                                     trainingMat,hwLabels,3)
        print('the classifier came back with: %d,the real answer is:%d' \
              % (classifierResult, classNumStr))
        if (classifierResult != classNumStr):
            errorCount += 1.0
    print('the total number of errors is: %d' % (errorCount))
    print('the total error rate is: %f' % (errorCount / float(mTest)))

[機器學習]利用KNN演算法進行驗證碼識別

前言對那些及其簡單的驗證碼,可以用KNN演算法來破解,這裡整理了一個思路,可以瞭解瞭解.那麼KNN演算法原理是什麼呢? KNN原理 kNN演算法的核心思想是如果一個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某一個類別，則該樣本

機器學習-mnist kNN演算法識別（python）

方以類聚，物以群分 ---《周易·繫辭上》測試環境：python3.6、win7 32bit、x86。在上一篇文章中介紹了mnist資料的格式，以及用python如何讀取mnist資料

機器學習入門-Knn演算法

knn演算法不需要進行訓練，耗時，適用於多標籤分類情況 1. 將輸入的單個測試資料與每一個訓練資料依據特徵做一個歐式距離、 2. 將求得的歐式距離進行降序排序，取前n_個 3. 計算這前n_個的y值的平均或者(類別)，獲得測試資料的預測值 4.根據測試資料的實際值和測試資料的預測值計算當前的rmse

機器學習(一)------KNN演算法

一.K-近鄰演算法 1.距離的度量： 1.2 k值的選擇： 1.3 分類決策規則：二.kd樹： 3.2：平衡kd樹： 3.2.2：搜尋kd樹： 3.3

機器學習入門--kNN演算法

新的學習征程之前的blog主要是關於Android和Nodejs的一些開發學習筆記，在經歷了一段時間的學習和實習之後，也拿到了幾個大廠offer，痛定思痛下決心在大四參加考研，現在考研成功，也要繼續開始新的學習了，接下來的學習將主要以Machine Lear

機器學習之KNN演算法實現影象分類

閒著無聊，這次自己動手實現一下簡單的KNN分類演算法，來實現對圖片的分類，夯實一下自己的基礎。首先，KNN演算法流程： 1）計算測試資料與各個訓練資料之間的距離； 2）按照距離的遞增關係進行排序； 3）選取距離最小的點； 4）確定最小點所在的位置； 5）返回最

機器學習：KNN演算法(MATLAB實現)

K-近鄰演算法的思想如下：首先，計算新樣本與訓練樣本之間的距離，找到距離最近的K 個鄰居；然後，根據這些鄰居所屬的類別來判定新樣本的類別，如果它們都屬於同一個類別，那麼新樣本也屬於這個類；否則，對每個後選類別進行評分，按照某種規則確定新樣本的類別。（統計出現的頻率）

《機器學習實戰》——KNN演算法實戰篇

#-*-coding:utf-8-*- from numpy import * import operator from os import listdir """ KNN演算法的原理：存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本

機器學習實戰——KNN演算法手寫數字識別

資料來源我們的文字是形如這樣的，每個數字都有很多txt檔案，TXT裡面是01數字，表示手寫數字的灰度圖。現在我們要用knn演算法實現數字識別。資料處理每個txt檔案都是32*32的0,1矩陣，如果要使用knn，那麼還得考慮行列關係，如果能把它拉開，只有一行，就可以不必考慮數字

機器學習實戰——KNN演算法改進約會網站配對效果

背景：將約會網站的人分為三種類型：不喜歡的，魅力一般的，極具魅力的，分別用數字1,2,3表示，這些是樣本的標籤。樣本特徵為，每年飛行里程，玩視訊遊戲佔百分比，每週消費冰淇淋公升數。 &

機器學習實戰——KNN演算法預測電影型別

預測電影型別現有愛情片和動作片（不是愛情動作片，霧）的打鬥場面和接吻場面的次數統計，然後給出一個電影打鬥場面和接吻場面出現的次數，預測其型別。那麼如何預測呢？當然用KNN了。 &

機器學習演算法及實戰——kNN演算法

K近鄰演算法（k-nearest neighbor, k-NN）在各種演算法中算是比較簡單的演算法，理解起來也比較輕鬆。 1.描述在一個已知特徵標籤的資料集（訓練集）中，資料集的各個元素在座標空間中都是有距離的，而距離最近的資料子集一般具有相對優勢的特徵標籤數量。新資料

《機器學習實戰》學習筆記——kNN演算法

《機器學習實戰》（MLiA）是一本介紹機器學習的書（的確是廢話），和其他書不同的地方在於它給出了python的實現程式碼，而其他的書籍重在解釋理論。我作為一名渣渣，理論就先放一放了。 MLiA的第一章主要介紹了一些概念、常識性的東西，所以不做介紹，這篇文章主要

機器學習實戰-KNN演算法實現及遇到的問題總結

最近在看《機器學習實戰》這本書，內容充實，重視實踐，很不錯，也很適合機器學習的入門。下面貼上用python編寫的KNN演算法程式碼，放在部落格裡安全啊~~我的電腦隨時都會崩潰的.... from numpy import * import operator from os

機器學習實戰--KNN 演算法筆記

原始碼部分： from numpy import * import operatordef createDataSet():group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])labels=['A','A','B','B']ret

【機器學習】KNN及程式碼實戰

一、KNN分類思想二、例子一 1.情景如下圖，這裡共有四個點，兩個B類，兩個A類。[1,1.1]-A 、[1,1]-A 、[0,0]-B 、[0,0.1]-B。現在我們輸入點[0,0]，要求KNN分類器幫我們分類，判斷點[0,0]是A類

KNN 演算法-實戰篇-如何識別手寫數字

> **公號：碼農充電站pro** > **主頁：** 上篇文章介紹了[KNN 演算法的原理](https://www.cnblogs.com/codeshell/p/14072586.html)，今天來介紹如何**使用KNN 演算法識別手寫數字**？ ### 1，手寫數字資料集手寫數字資料集是一個用

機器學習之分類問題實戰(基於UCI Bank Marketing Dataset)

表示般的機構文件 cnblogs opened csv文件 mas htm 導讀：分類問題是機器學習應用中的常見問題，而二分類問題是其中的典型，例如垃圾郵件的識別。本文基於UCI機器學習數據庫中的銀行營銷數據集，從對數據集進行探索，數據預處理和特征工程，到學習

Python機器學習全流程專案實戰精講（2018版）

Python機器學習全流程專案實戰精講（2018版）網盤地址：https://pan.baidu.com/s/16SSVq74YC07M0dW1iDekPg 提取碼: vu7r備用地址（騰訊微雲）：https://share.weiyun.com/5VGzPK0 密碼：yp4ri9 課程特色：機器學習一線工

機器學習之KNN最鄰近分類演算法

KNN演算法簡介 KNN（K-Nearest Neighbor）最鄰近分類演算法是資料探勘分類（classification）技術中最簡單的演算法之一，其指導思想是”近朱者赤，近墨者黑“，即由你的鄰居來推斷出你的類別。 KNN最鄰近分類演算法的實現原理：為了判斷未知樣

《機器學習實戰》——KNN演算法實戰篇

相關推薦