機器學習作業KNN（下）——字元分類

阿新 • • 發佈：2018-12-20

作業背景：今天機器學習實驗課，老師給了個很小的資料集，是劃分英文字母B和M，讓我們用KNN做，看看分類效果嗎，正好我上個實驗也用的KNN，所以把上次的程式稍微修改一下即可（偷懶狂魔）。
資料預處理：大致看了下資料集，是這個樣子的： 2.1 特徵選取：所以，老規矩，先看看哪些特徵是沒有用的，很明顯id對分類不產生影響，將其剔除。剩下的特徵都有用，將其留下。 2.2 歸一化的問題：發現有些特徵都是過百的，而有些特徵在0~1之間徘徊，很明顯，過大的資料產生的影響會蓋過小值對分類的效用，所以要進行資料集的歸一化。 2.3 選取訓練集，資料集：首先先打亂資料集，選取亂序後的資料集的前10行作為測試集，剩下的作為訓練集，訓練模型
資料視覺化：由於是不是二維的，所以沒直接在座標上視覺化，所以我選區了幾個特徵進行了視覺化，如下圖所示：資料質量還是客觀的，可以用於訓練，下面是程式碼塊>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
程式碼塊（程式碼改的的有點醜，不要介意）

import numpy as np
import matplotlib.pyplot as plt
import 
 operator
import pandas as pd
#################讀取檔案（資料預處理）#########################
def filematrix(filename):
    array0Lines = np.matrix(pd.read_csv(filename)) ##讀取檔案,選取前20行資料作為訓練集，最後三行資料作為測試集。
    returnMat = array0Lines[:, 2:33]  ##訓練集
    number0Lines = array0Lines.shape[0]                       ##讀取檔案行數 

    classLabelVector = []                                     ##訓練集分類標籤向量
    for line in array0Lines:                                  #遍歷資料集，獲取分類標籤資訊
        if line[:,1]=='B':
            classLabelVector.append('B')
        elif line[:,1]=='M':
            classLabelVector.append('M')
    return returnMat,np.matrix(classLabelVector).T            ##返回訓練集和標籤向量

def showdatas(datingDataMat,datingLabels):

    """
    函式說明：視覺化資料
    Parameters:
        datingDataMat - 特徵矩陣
        datingLabels - 分類Label
    Returns:
        無
    """
    #不同型別資料的顏色
    LabelsColors = []                                          ##存放資料顏色的陣列
    for i in datingLabels:
        if i == 'B':
            LabelsColors.append('blue')
        elif i == 'M':
            LabelsColors.append('red')
    fig,axs = plt.subplots(nrows=2,ncols=2,figsize=(10,6))
    #畫圖時要注意把matrix格式換成list格式，否則不能畫圖
    ###由於特徵有點多，所以畫圖時，我只選擇了其中幾個特徵看看分佈
    axs[0][0].scatter(datingDataMat[:,2].tolist(),datingDataMat[:,3].tolist(),color=LabelsColors,s=15,alpha=.5)
    axs[0][1].scatter(datingDataMat[:,4].tolist(), datingDataMat[:, 5].tolist(), color=LabelsColors, s=15, alpha=.5)
    axs[1][0].scatter(datingDataMat[:, 6].tolist(), datingDataMat[:, 7].tolist(), color=LabelsColors, s=15, alpha=.5)
    axs[1][1].scatter(datingDataMat[:, 8].tolist(), datingDataMat[:, 9].tolist(), color=LabelsColors, s=15, alpha=.5)
    """
    ###設定圖列legend
    '0' = mlines.Line2D([], [], color='black', marker='.',markersize=6, label='0')
    '1' = mlines.Line2D([], [], color='orange', marker='.',markersize=6, label='1')
    '2' = mlines.Line2D([], [], color='red', marker='.',markersize=6, label='2')
    plt.legend(handles=[0,1,2])
    """
    plt.show()

def autoNorm(dataSet):
    """
    函式說明:對資料進行歸一化

    Parameters:
        dataSet - 特徵矩陣
    Returns:
        normDataSet - 歸一化後的特徵矩陣
        ranges - 資料範圍
        minVals - 資料最小值
    """
    #meanVals = dataSet.mean(0)                                   #資料平均值
    #stdVals = dataSet.std(0)
    minVals = dataSet.min(0)                                      #資料最小值
    maxVals = dataSet.max(0)                                      #資料最大值
    ranges = maxVals - minVals                                    #最大值和最小值的差距
    normDataSet = np.zeros(np.shape(dataSet))                     #用於存放歸一化後的資料集
    m= dataSet.shape[0]                                           #返回資料集的行數
    ###歸一化過程
    #normDataSet = dataSet-meanVals
    #normDataSet = normDataSet/stdVals
    normDataSet = dataSet - np.tile(minVals,(m,1))                #原始資料減去最小資料
    normDataSet = normDataSet/np.tile(ranges,(m,1))               #所得之差除以最大值最小值得差，得到歸一化資料
    return normDataSet,ranges,minVals                             #返回歸一化資料結果，資料範圍，最小值

def classify(inX,dataSet,labels,k):
    dataSetSize = dataSet.shape[0]                                #返回dataSet的行數
    diffMat = np.tile(inX,(dataSetSize,1)) - dataSet              #測試矩陣-資料集
    sqDiffMat = np.multiply(diffMat,diffMat)
    sqDistances = sqDiffMat.sum(axis=1).tolist()                  #沿著列的方向相加
    #sqDistances = sqDistances.tolist()                           #這一步是為了把matrix格式，轉化成ndarray格式，否則下一行的操作會報錯
    distances = np.sqrt(np.ravel(sqDistances))                    #先展開成一維，再開平方歐式距離
    sortedDisIndices = distances.argsort()                        #返回distances中元素從小到大排序後的索引值
    classCount = {}                                               #空字典，用來記錄類別次數
    for i in range(k):                                            #遍歷
        voteIlabel = labels[sortedDisIndices[i]]                  #取出最近的K個點
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 #存放出現的類別次數
        #根據字典的值進行降序排序
        sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
        return  sortedClassCount[0][0]                            #返回次數最多的類別

def datingClassTest():
    filename = "G:/shiyan2/Ex2.1_KNN.csv"
    datingDataMat, datingLabels = filematrix(filename)
    normMat, ranges, minVals = autoNorm(datingDataMat)
    ###打亂資料集，並取前20個作為訓練集
    index = np.arange(50)
    np.random.shuffle(index)
    dataSet = normMat[index]
    test = normMat[0:11, :]                                       # 測試集
    numTestVecs = len(test)                                       #測試集個數
    m = np.shape(normMat)[0]                                      #獲得normMat的行數
    errorCount = 0.0                                              #分類錯誤計數
    for i in range (numTestVecs-1):
        classifierResult = classify(test[i,:],normMat[numTestVecs:m,:],np.ravel(datingLabels)[numTestVecs:m],5)     ##前numTestVecs 作為測試集，後m-numTestVecs作為訓練集,這邊注意要是list格式，否則不能迭代的
        print("分類結果：%s\t真實類別：%s"%(classifierResult,datingLabels[i]))
        if classifierResult!=datingLabels[i]:
            errorCount+=1.0
    print("錯誤率：%f%%"%(errorCount/float(numTestVecs)*100))
    showdatas(datingDataMat,datingLabels)

if __name__ =='__main__':
    datingClassTest()

分類結果：B	真實類別：[['B']]
分類結果：B	真實類別：[['B']]
分類結果：B	真實類別：[['B']]
分類結果：B	真實類別：[['B']]
分類結果：B	真實類別：[['B']]
分類結果：B	真實類別：[['B']]
分類結果：M	真實類別：[['B']]
分類結果：M	真實類別：[['M']]
分類結果：B	真實類別：[['B']]
分類結果：B	真實類別：[['B']]
錯誤率：9.090909%



<Figure size 1000x600 with 4 Axes>

機器學習作業KNN（下）——字元分類

作業背景：今天機器學習實驗課，老師給了個很小的資料集，是劃分英文字母B和M，讓我們用KNN做，看看分類效果嗎，正好我上個實驗也用的KNN，所以把上次的程式稍微修改一下即可（偷懶狂魔）。資料預處理：大致看了下資料集，是這個樣子的： 2.1 特徵選

機器學習第一篇（下）

實戰演練 ——MovieLens 第一步：獲取資料集第二步：解壓檔案後，將u.item以及u.data新增到專案中，加入方法loadMovieLens def loadMovieLens(path='data/movielens'): movies={} for

機器學習 - 提升樹（下）- XGBoost 以及與 GBDT 的比較

機器學習 - 提升樹（下）- XGBoost 以及與 GBDT 的比較 XGBoost（eXtreme Gradient Boost）原理預剪枝與 GBDT 的比較

機器學習 - 決策樹（下）- CART 以及與 ID3、C4.5的比較

機器學習 - 決策樹（下）- CART 以及與 ID3、C4.5的比較 CART 迴歸樹分類樹剪枝剪枝選擇決策樹特點總結 ID3，C4.

中國mooc北京理工大學機器學習第二周（一）：分類

kmeans 方法輸入 nump arr mod 理工大學 each orm 一、K近鄰方法（KNeighborsClassifier）使用方法同kmeans方法，先構造分類器，再進行擬合。區別是Kmeans聚類是無監督學習，KNN是監督學習，因此需要劃分出訓練集和測試

系統學習機器學習之總結（一）--常見分類演算法優缺點

主要是參考網上各種資源，做了整理。其實，這裡更多的是從基礎版本對比，真正使用的時候，看資料，看改進後的演算法。 1. 五大流派 ①符號主義：使用符號、規則和邏輯來表徵知識和進行邏輯推理，最喜歡的演算法是：規則和決策樹 ②貝葉斯派：獲取發生的可能性來進行概率推理，最喜歡的演算法是：樸素貝葉

機器學習筆記之（4）——Fisher分類器（線性判別分析，LDA）

本博文為Fisher分類器的學習筆記~本博文主要參考書籍為：《Python大戰機器學習》Fisher分類器也叫Fisher線性判別（Fisher Linear Discriminant），或稱為線性判別分析（Linear Discriminant Analysis，LDA）。

《機器學習實戰》（一）knn演算法

K最近鄰（k-Nearest Neighbor，KNN）分類演算法可以說是最簡單的機器學習演算法了。它採用測量不同特徵值之間的距離方法進行分類。它的思想很簡單：存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一個數據與所屬分類的對應關係。輸入沒有標

《機器學習實戰》（1）kNN小結（小白教學，每行程式碼都有註釋）

最近入坑了機器學習，為了快速提高自己的機器學習的程式碼能力，入坑了《機器學習實戰》，目前只學習了第一個重要演算法:k近鄰演算法（kNN），在學習過程中發現許多相關的學習資料要麼程式碼是python2的，要麼程式碼的解釋不夠詳細，對於像我這樣的菜雞而言苦不堪言，為了後來者不踩我

機器學習之KNN（k近鄰）演算法

1、演算法介紹k近鄰演算法是學習機器學習的入門演算法，可實現分類與迴歸，屬於監督學習的一種。演算法的工作原理是：輸入一個訓練資料集，訓練資料集包括特徵空間的點和點的類別，可以是二分類或是多分類。預測時，輸入沒有類別的點，找到k個與該點距離最接近的點，使用多數表決的方法，得出最後的預測分類。

機器學習之KNN（k近鄰）算法

target rom val zip 定義 stat 2-0 datasets tro 1、算法介紹k近鄰算法是學習機器學習的入門算法，可實現分類與回歸，屬於監督學習的一種。算法的工作原理是：輸入一個訓練數據集，訓練數據集包括特征空間的點和點的類別，可以是二分類或是多分類

機器學習實戰ByMatlab（一）KNN演算法

KNN 演算法其實簡單的說就是“物以類聚”，也就是將新的沒有被分類的點分類為周圍的點中大多數屬於的類。它採用測量不同特徵值之間的距離方法進行分類，思想很簡單：如果一個樣本的特徵空間中最為臨近（歐式距

3分鐘瞭解入門「機器學習」該學習什麼？（下）

本文來自作者劉明在 GitChat 上分享「機器學習/深度學習書單推薦及學習方法」，「閱讀原文」檢視交流實錄「文末高能」編輯 | 阪本寫在前面本人是個對數學和人工智慧極其感興

KNN-機器學習實戰系列（一）

開門見山，本文單說KNN：作為機器學習實戰書籍介紹的第一個演算法，有一些值得說道的地方： 1：什麼是KNN？機器學習的一些基本知識和概念不加敘述了，直接給出KNN的白話定義：給定M個樣本，每個樣本均有N個數字衡量的屬性，而每個樣本均帶有自身的標籤：這裡，為什麼需

機器學習之KNN（k近鄰）演算法詳解

1-1 機器學習演算法分類一、基本分類： ①監督學習（Supervised learning）資料集中的每個樣本有相應的“正確答案”，根據這些樣本做出預測，分有兩類：迴歸問題和分類問題。步驟1：資料集的建立和分類步

機器學習回顧篇（6）：KNN演算法

1 引言¶ 本文將從演算法原理出發，展開介紹KNN演算法，並結合機器學習中常用的Iris資料集通過程式碼例項演示KNN演算法用法和實現。

中國mooc北京理工大學機器學習第一周（一）

lib odi pen 運行 numpy 聚類準則 ++ mooc 從今天開始跟著北理工的老師走一遍sklearn，在這裏做筆記。一、聚類 1、K-Means方法先貼代碼，所有數據的下載地址：http://pan.baidu.com/s/1hrO5NW4

Andrew Ng機器學習課程筆記（四）之神經網絡

機器學習入門點滴（一）（待補充完整）

arr intro 統計 int ica nts 機器學習算法 .com 場景 Step1-知識準備： 1. 數學：線性代數，概率論和統計，高數 2. 程序語言：Matlab R 或 Python（只用於學習入門，不是實現的最佳語言） 3. 推薦書籍：選擇一到兩本公式較少、

《Python 機器學習》筆記（一）

環境成功設定相關 reward 能力學習一定的 env 賦予計算機學習數據的能力涵蓋：1.機器學習的一般概念2.機器學習方法的三種類型和基本術語3.成功構建機器學習系統所需的模塊機器學習的三種不同方法1.監督學習2.無監督學習3.強化學習通過監督學習對未來事件進行

機器學習作業KNN（下）——字元分類

相關推薦