《機器學習實戰》學習筆記（一）：k-近鄰演算法

阿新 • • 發佈：2018-12-16

k-近鄰演算法

原書中程式碼為python2中語法，python3的語法參考連結：https://blog.csdn.net/c406495762/article/details/75172850

給出k-近鄰演算法的完整程式碼（海倫相親程式）

import numpy as np
import operator

"""
函式說明:kNN演算法,分類器

Parameters:
    inX - 用於分類的資料(測試集)
    dataSet - 用於訓練的資料(訓練集)
    labes - 分類標籤
    k - kNN演算法引數,選擇距離最小的k個點
Returns:
    sortedClassCount[0][0] - 分類結果

Modify:
    2017-03-24
"""
def classify0(inX, dataSet, labels, k):
    #numpy函式shape[0]返回dataSet的行數
    dataSetSize = dataSet.shape[0]
    #在列向量方向上重複inX共1次(橫向),行向量方向上重複inX共dataSetSize次(縱向)
    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
    #二維特徵相減後平方
    sqDiffMat = diffMat**2
    #sum()所有元素相加,sum(0)列相加,sum(1)行相加
    sqDistances = sqDiffMat.sum(axis=1)
    #開方,計算出距離
    distances = sqDistances**0.5
    #返回distances中元素從小到大排序後的索引值
    sortedDistIndices = distances.argsort()
    #定一個記錄類別次數的字典
    classCount = {}
    for i in range(k):
        #取出前k個元素的類別
        voteIlabel = labels[sortedDistIndices[i]]
        #dict.get(key,default=None),字典的get()方法,返回指定鍵的值,如果值不在字典中返回預設值。
        #計算類別次數
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    #python3中用items()替換python2中的iteritems()
    #key=operator.itemgetter(1)根據字典的值進行排序
    #key=operator.itemgetter(0)根據字典的鍵進行排序
    #reverse降序排序字典
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    #返回次數最多的類別,即所要分類的類別
    return sortedClassCount[0][0]


"""
函式說明:開啟並解析檔案，對資料進行分類：1代表不喜歡,2代表魅力一般,3代表極具魅力

Parameters:
    filename - 檔名
Returns:
    returnMat - 特徵矩陣
    classLabelVector - 分類Label向量

Modify:
    2017-03-24
"""
def file2matrix(filename):
    #開啟檔案
    fr = open(filename)
    #讀取檔案所有內容
    arrayOLines = fr.readlines()
    #得到檔案行數
    numberOfLines = len(arrayOLines)
    #返回的NumPy矩陣,解析完成的資料:numberOfLines行,3列
    returnMat = np.zeros((numberOfLines,3))
    #返回的分類標籤向量
    classLabelVector = []
    #行的索引值
    index = 0
    for line in arrayOLines:
        #s.strip(rm)，當rm空時,預設刪除空白符(包括'\n','\r','\t',' ')
        line = line.strip()
        #使用s.split(str="",num=string,cout(str))將字串根據'\t'分隔符進行切片。
        listFromLine = line.split('\t')
        #將資料前三列提取出來,存放到returnMat的NumPy矩陣中,也就是特徵矩陣
        returnMat[index,:] = listFromLine[0:3]
        #根據文字中標記的喜歡的程度進行分類,1代表不喜歡,2代表魅力一般,3代表極具魅力
        if listFromLine[-1] == 'didntLike':
            classLabelVector.append(1)
        elif listFromLine[-1] == 'smallDoses':
            classLabelVector.append(2)
        elif listFromLine[-1] == 'largeDoses':
            classLabelVector.append(3)
        index += 1
    return returnMat, classLabelVector

"""
函式說明:對資料進行歸一化

Parameters:
    dataSet - 特徵矩陣
Returns:
    normDataSet - 歸一化後的特徵矩陣
    ranges - 資料範圍
    minVals - 資料最小值

Modify:
    2017-03-24
"""
def autoNorm(dataSet):
    #獲得資料的最小值
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    #最大值和最小值的範圍
    ranges = maxVals - minVals
    #shape(dataSet)返回dataSet的矩陣行列數
    normDataSet = np.zeros(np.shape(dataSet))
    #返回dataSet的行數
    m = dataSet.shape[0]
    #原始值減去最小值
    normDataSet = dataSet - np.tile(minVals, (m, 1))
    #除以最大和最小值的差,得到歸一化資料
    normDataSet = normDataSet / np.tile(ranges, (m, 1))
    #返回歸一化資料結果,資料範圍,最小值
    return normDataSet, ranges, minVals

"""
函式說明:通過輸入一個人的三維特徵,進行分類輸出

Parameters:
    無
Returns:
    無

Modify:
    2017-03-24
"""
def classifyPerson():
    #輸出結果
    resultList = ['討厭','有些喜歡','非常喜歡']
    #三維特徵使用者輸入
    precentTats = float(input("玩視訊遊戲所耗時間百分比:"))
    ffMiles = float(input("每年獲得的飛行常客里程數:"))
    iceCream = float(input("每週消費的冰激淋公升數:"))
    #開啟的檔名
    filename = "datingTestSet.txt"
    #開啟並處理資料
    datingDataMat, datingLabels = file2matrix(filename)
    #訓練集歸一化
    normMat, ranges, minVals = autoNorm(datingDataMat)
    #生成NumPy陣列,測試集
    inArr = np.array([precentTats, ffMiles, iceCream])
    #測試集歸一化
    norminArr = (inArr - minVals) / ranges
    #返回分類結果
    classifierResult = classify0(norminArr, normMat, datingLabels, 3)
    #列印結果
    print("你可能%s這個人" % (resultList[classifierResult-1]))

"""
函式說明:main函式

Parameters:
    無
Returns:
    無

Modify:
    2017-03-24
"""
if __name__ == '__main__':
    classifyPerson()

《機器學習實戰》筆記（一）：K-近鄰演算法

一、K-近鄰演算法 1.1 k-近鄰演算法簡介簡單的說，K-近鄰演算法採用測量不同特徵值之間的距離的方法進行分類。 1.2 原理存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一資料與所屬分類的對應關係。輸入沒有標籤的新資料

Python3《機器學習實戰》學習筆記（一）：k-近鄰演算法

**轉載：**http://blog.csdn.net/c406495762執行平臺： WindowsPython版本： Python3.xIDE： Sublime text3 他的個人網站：http://cuijiahua.com 文章目錄

《機器學習實戰》學習筆記（一）：k-近鄰演算法

k-近鄰演算法原書中程式碼為python2中語法，python3的語法參考連結：https://blog.csdn.net/c406495762/article/details/75172850 給出k-近鄰演算法的完整程式碼（海倫相親程式） import numpy a

python3.5《機器學習實戰》學習筆記（一）：k近鄰演算法

轉載請註明作者和出處：http://blog.csdn.net/u013829973 系統版本：window 7 （64bit） python版本：python 3.5 IDE：Spyder （一個比較方便的辦法是安裝anaconda，那麼Spyder和

Python3《機器學習實戰》學習筆記（一）：k-近鄰演算法(史詩級乾貨長文)

#一簡單k-近鄰演算法本文將從k-鄰近演算法的思想開始講起，使用python3一步一步編寫程式碼進行實戰訓練。並且，我也提供了相應的資料集，對程式碼進行了詳細的註釋。除此之外，本文也對sklearn實現k-鄰近演算法的方法進行了講解。實戰例項：

python3.5《機器學習實戰》學習筆記（三）：k近鄰演算法scikit-learn實戰手寫體識別

轉載請註明作者和出處：http://blog.csdn.net/u013829973 系統版本：window 7 （64bit）我的GitHub：https://github.com/weepon python版本：python 3.5 IDE：Spy

統計學習方法筆記（一）：K近鄰法的實現：kd樹

實現k近鄰演算法時，首要考慮的問題是如何對訓練資料進行快速的k近鄰搜尋。這點在特徵空間的維數大於訓練資料容量時尤為重要。構造kd樹 kd 樹是一種對k為空間中的例項點進行儲存的一邊對其進行快速檢索的樹形資料結構。kd樹是二叉樹，表示對k維空間的一個劃分（parti

《機器學習實戰》筆記（三）：樸素貝葉斯

4.1 基於貝葉斯決策理論的分類方法樸素貝葉斯是貝葉斯決策理論的一部分，貝葉斯決策理論的的核心思想，即選擇具有最高概率的決策。若p1(x,y)和p2(x,y)分別代表資料點(x,y)屬於類別1,2的概率，則判斷新資料點(x,y)屬於哪一類別的規則是： 4.3 使用條件概率來分類

機器學習實戰讀書筆記（四）：樸素貝葉斯演算法

樸素貝葉斯優點: 在資料較少的情況下仍然有效可以處理多類別問題缺點：對輸入的資料的準備方式較為敏感適用資料型別：標稱型資料 p1(x,y)>p2(x,y) 那麼類別是1 p2(x,y)>p1(x,y) 那麼類別是2 貝葉斯決策的核心是選擇具有最高概率的決策

機器學習筆記（一）：梯度下降演算法，隨機梯度下降，正規方程

一、符號解釋 M 訓練樣本的數量 x 輸入變數，又稱特徵 y 輸出變數，又稱目標 (x, y) 訓練樣本，對應監督學習的輸入和輸出表示第i組的x 表示第i組的y h(x)表示對應演算法的函式是

隱馬爾可夫模型學習筆記（一）：前後向演算法介紹與推導

學習隱馬爾可夫模型（HMM），主要就是學習三個問題：概率計算問題，學習問題和預測問題。概率計算問題主要是講前向演算法和後向演算法，這兩個演算法可以說是隱馬爾可夫的重中之重，接下來會依次介紹以下內容。隱馬爾可夫模型介紹模型的假設直接計演算法，前向演算法，後向演

《Python資料分析與挖掘實戰》筆記（一）：資料探勘基礎

一、資料探勘的基本任務利用分類與預測、聚類分析、關聯規則、時序模式、偏差檢測、智慧推薦等方法，幫助企業提取資料中蘊含的商業價值，提升企業的競爭力。二、資料探勘建模過程定義挖掘目標：任務目標和完

ng機器學習視頻筆記（一）——線性回歸、代價函數、梯度下降基礎

info 而且 wid esc 二維 radi pan 圖形 clas ng機器學習視頻筆記（一） ——線性回歸、代價函數、梯度下降基礎（轉載請附上本文鏈接——linhxx）一、線性回歸線性回歸是監督學習中的重要算法，其主要目的在於用一個函數表

《機器學習》學習筆記（一）：線性回歸、邏輯回歸

ros XA andrew ID learn 給定編程練習 size func 《機器學習》學習筆記（一）：線性回歸、邏輯回歸本筆記主要記錄學習《機器學習》的總結體會。如有理解不到位的地方，歡迎大家指出，我會努力改正。在學習《機器學習》時，我主要是

機器學習筆記（一）：最小二乘法和梯度下降

一、最小二乘法 1.一元線性擬合的最小二乘法先選取最為簡單的一元線性函式擬合助於我們理解最小二乘法的原理。要讓一條直接最好的擬合紅色的資料點，那麼我們希望每個點到直線的殘差都最小。設擬合直線為

機器學習速成筆記（一）：主要術語

機器學習研究如何通過計算的方式，利用資料集來改善系統自身的效能。而深度學習是屬於機器學習的一個子分支。機器學習的通用的兩種型別：無監督學習：事先並沒有任務訓練資料的樣本，需要直接對資料進行建模型。監督學習：通過已經有的訓練樣本（即輸入資訊和對應的輸出）來訓練，得到一個

Python機器學習基礎教程筆記（一）

description: 《Python機器學習基礎教程》的第一章筆記，書中用到的相關程式碼見github:https://github.com/amueller/introduction_to_ml_with_python ，筆記中不會記錄。為何選擇機器學習人為制訂決

機器學習實戰--決策樹（一）

決策樹是一種通過推斷分解，逐步縮小待推測事物範圍的演算法結構，重要任務就是理解資料中所蘊含的知識資訊，可以使用不熟悉的資料集合，並從中提取出一系列規則，根據資料集建立規則的過程就是機器學習的過程。優點：計算複雜度不高，輸出結果易於理解，對中間值的缺失不敏感，可以處理不相關特

機器學習實戰決策樹（一）——資訊增益與劃分資料集

from math import log #計算給定的熵 def calcsahnnonent(dataset): numentries = len(dataset) #計算例項的總數 labelcounts ={} #

Java虛擬機器學習筆記（一）：記憶體區域與HotSpot虛擬機器物件探祕

執行時資料區域 Java虛擬機器在執行Java程式的過程中會把它所管理的記憶體劃分為若干個不同的資料區域。這些區域都有各自的用途，以及建立和銷燬的時間，有的區域隨著虛擬機器程序的啟動而存在，有些區域則依賴使用者執行緒的啟動和結束而建立和銷燬。根據《Java虛擬機

《機器學習實戰》學習筆記（一）：k-近鄰演算法

k-近鄰演算法

相關推薦