機器學習實戰——1.1K近鄰演算法

阿新 • • 發佈：2018-12-26

宣告：參考書目《機器學習實戰》作者: Peter Harrington 出版社: 人民郵電出版社譯者: 李銳 / 李鵬 / 曲亞東 / 王斌

參考部落格 Jack-Cui 作者個人網站：http://cuijiahua.com/

公式： $d=\sqrt{(xA_{0}-xB_{0})^{2}+(xA_{1}-xB_{1})^{2}}$

K近鄰演算法的一般步驟

收集資料：可以使用任何方法
準備資料：使用Python解析、預處理資料。
分析資料：可以使用很多方法對資料進行分析，例如使用Matplotlib將資料視覺化。
測試演算法：計算錯誤率。
使用演算法：錯誤率在可接受範圍內，就可以執行k-近鄰演算法進行分類。

海倫女士一直使用線上約會網站尋找適合自己的約會物件。儘管約會網站會推薦不同的任選，但她並不是喜歡每一個人。經過一番總結，她發現自己交往過的人可以進行如下分類：

不喜歡的人
魅力一般的人
極具魅力的人

海倫收集約會資料已經有了一段時間，她把這些資料存放在文字檔案datingTestSet.txt中，每個樣本資料佔據一行，總共有1000行。資料地址：DataSet。

資料主要包括四行，三種特徵以及一個標籤：其中第一組資料數量級遠大於其他兩組資料，如果直接將原始資料放入公式 $d=\sqrt{(xA_{0}-xB_{0})^{2}+(xA_{1}-xB_{1})^{2}}$ 會導致第一組資料其決定性的作用，從而導致其他兩組資料失效。因此我們需要將原始資料進行歸一化處理，將所有資料都處理到0-1的區間內。公式： $newLine=\frac{oleLine-min}{max-min}$ 。

所以我們的目的這次就很清楚了，

首先將資料從文字匯入，進行預處理，將其放置到矩陣中

將矩陣中的資料進行歸一化處理
將需要進行判斷的資料輸入，並與DataSet中所有資料進行歐式距離計算
選取歐氏距離最小的前 k 個數據，將其中距離最小的資料你的類別作為本次輸入資料的類別

#-*-cording:UTF-8-*-
import numpy as np

#將資料從文字讀入矩陣中 filename 為檔案所在的地址
def ReadFile(filename):
    #開啟文字並讀取文字中的內容
    fr = open(filename)
    ReadLines = fr.readlines()
    #記錄文字行數是為了建立一個可以正好放入所有資料的矩陣
    Len_File = len(ReadLines)
    #建立一個全零矩陣大小為 Len_File * 3
    Array_return = np.zeros((Len_File,3))
    #建立一個列表，用於存放標籤
    ClassLables = []
    #index用於記錄存放在數組裡面數據的位置的
    index = 0
    #逐行讀取文字內容
    for line in ReadLines:
        #去除空格跟換行符
        line = line.strip()
        line = line.split('\t')
        #將每行資料的前三個賦值給矩陣對應的行。資料第四個為標籤
        Array_return[index, : ] = line[0:3]
        #按標籤將資料進行分類，1代表不喜歡，2第還行，3表示還不錯
        if line[-1] == 'didntLike':
            ClassLables.append(1)
        elif line[-1] == 'smallDoses':
            ClassLables.append(2)
        elif line[-1] == 'largeDoses':
            ClassLables.append(3)
        index += 1
    return Array_return, ClassLables

#歸一化處理 DataSet為輸入的資料集
#公式為  newValue= （oleValue - min）/（max - min）
def AutoNorm(DataSet):
    #shape[0]返回的是Dataset的行數，shape[1]返回的是列數
    array_len = DataSet.shape[0]
    #輸出DataSet行裡面的最大最小值
    min_value = DataSet.min(axis=0)
    max_value = DataSet.max(axis=0)
    value_range = max_value - min_value
    #newArray = np.zeros(np.shape(DataSet))
    #np.tile 是將min_value在行方向上覆制 array_len 次，在列方向上覆制1 次
    newArray = DataSet - np.tile(min_value,(array_len,1))
    newArray = newArray / np.tile(value_range,(array_len,1))
    return newArray,value_range, min_value

#K近鄰處理演算法
#公式為 diatance ={ （x1-x2)^2 - （y1-y2）^2 }^0.5
#Data為你給的資料，DataSet為資料集，Labes為標籤，K為你選擇的樣本數
def Classify(Data, DataSet, Lables, k):
    #獲取DataSet的行數，用以建立矩陣
    LenData = DataSet.shape[0]
    #建立一個矩陣，這個矩陣是由你給的 1*3矩陣複製成 LenData*3的矩陣減去DataSet矩陣得到的
    ArryMat = np.tile(Data, (LenData, 1)) - DataSet
    #將矩陣開方，其實是將矩陣內每個元素進行開方處理
    SqlMat = ArryMat ** 2
    #將矩陣按照列方向進行相加，變成一個LenData*1的矩陣
    SumMat = SqlMat.sum(axis=1)
    #將矩陣開根號處理
    DistanceMat = SumMat ** 0.5
    #將矩陣元素按從小到大排序，即數值越小說明距離越短，也就是越接近這個類別
    SortDistance = DistanceMat.argsort()
    #建立一個字典用來存放對應類別的個數
    ClassCount = {}
    for i in range(k):
        #返回Lables
        votoLables = Lables[SortDistance[i]]
        #字典的get函式dict.get(key, default=None)如果沒有找到對應的值，那麼就會返回你設定的值，或者預設值。這裡我們設定為 0
        ClassCount[votoLables] = ClassCount.get(votoLables,0) + 1
    #將字典裡按照從大到小排序
    SortClassCount = sorted(ClassCount.items(), reverse=True)
    #返回最大值
    return SortClassCount[0][0]




if __name__ == "__main__":
    filename = "C:/Users/lpp/Desktop/datingTestSet.txt"
    DataSet, Lables = ReadFile(filename)
    Array, value_range, min_value = AutoNorm(DataSet)
    precentTats = float(input("玩視訊遊戲所耗時間百分比:"))
    ffMiles = float(input("每年獲得的飛行常客里程數:"))
    iceCream = float(input("每週消費的冰激淋公升數:"))
    data = np.array([precentTats, ffMiles, iceCream])
    ClassCount = Classify(data, Array, Lables, 1)
    if ClassCount == 1:
        print("不喜歡")
    elif ClassCount == 2:
        print("感興趣")
    elif ClassCount == 3:
        print("非常喜歡")

機器學習實戰——1.1K近鄰演算法

宣告：參考書目《機器學習實戰》作者: Peter Harrington 出版社: 人民郵電出版社譯者: 李銳 / 李鵬 / 曲亞東 / 王斌參考部落格 Jack-Cui 作者個人網站：http://cuijiahua.com/ 公式： K近鄰演算法的

機器學習實戰：K近鄰演算法--學習筆記

一、KNN的工作原理假設有一個帶有標籤的樣本資料集（訓練樣本集），其中包含每條資料與所屬分類的對應關係。輸入沒有標籤的新資料後，將新資料的每個特徵與樣本集中資料對應的特徵進行比較。 1）計算新資料與樣本資料集中每條資料的距離。 2）對求得的所有距離進

機器學習實戰筆記-K近鄰演算法2(改進約會網站的配對效果)

案例二.：使用K-近鄰演算法改進約會網站的配對效果案例分析: 海倫收集的資料集有三類特徵，分別是每年獲得的飛行常客里程數、玩視訊遊戲所耗時間百分比、每週消費的冰淇淋公升數。我們需要將新資

機器學習實戰之k-近鄰演算法（3）---如何視覺化資料

關於視覺化：《機器學習實戰》書中的一個小錯誤，P22的datingTestSet.txt這個檔案，根據網上的原始碼，應該選擇datingTestSet2.txt這個檔案。主要的區別是最後的標籤，作者原來使用字串‘veryLike’作為標籤，但是Python轉換會出現Val

《機器學習實戰》——k-近鄰演算法Python實現問題記錄

《機器學習實戰》第二章k-近鄰演算法，自己實現時遇到的問題，以及解決方法。做個記錄。 1.寫一個kNN.py儲存了之後，需要重新匯入這個kNN模組。報錯：no module named kNN. 解決方法：1.將.py檔案放到 site_packages 目錄下

機器學習實戰之K-近鄰演算法總結和程式碼解析

機器學習實戰是入手機器學習和python實戰的比較好的書，可惜我現在才開始練習程式碼！先宣告：本人菜鳥一枚，機器學習的理論知識剛看了一部分，python的知識也沒學很多，所以寫程式碼除錯的過程很痛可！但是還是挨個找出了問題所在，蠻開心的！看了很多大牛

py2.7 : 《機器學習實戰》 k-近鄰演算法 11.19 更新完畢

主要有幾個總結的： 1.python支援檔案模組化，所以在同一個目錄下import就可以呼叫了； 2.中文註釋要加上 # -*- coding: utf-8 -*- 3.import numpy 和 from numpy import * 區別是，對於前者，呼叫的時候需要

機器學習筆記1-k近鄰演算法的實現

k_近鄰演算法:採用測量不同特徵值之間的距離方法進行分類. 優點:精度高,對異常值不明感,無資料輸入假定缺點:計算複雜度高,空間複雜度高適用資料範圍:數值型和標稱型步驟如下: 1.計算一直類別資料集中的點御當前點之間的距離 2.按照距離的遞增次序排序 3.選取當前的點距

機器學習實戰之k-近鄰演算法（4）--- 如何歸一化資料

歸一化的公式： newValue = (oldValue - min) / (max - min) 就是把資料歸一化到[0, 1]區間上。好處：防止某一維度的資料的數值大小對距離就算產生影響。多個維度的特徵是等權重的，所以不能被數值大小影響。下面是歸一化特徵值的程式碼

《機器學習實戰》學習總結1——K-近鄰演算法

新手入門學習機器學習，根據ApacheCN的視訊學習程式碼，視訊可以在bilibili線上播放。有需要資料的可以在GitHub下載：https://github.com/RedstoneWill/MachineLearning 本文最主要的是分析程式碼的功能與實現，相應的原理大家拿看就好了

《機器學習實戰》學習總結1——K-近鄰演算法（程式清單2-1）

程式碼如下： def classify0(inX, dataSet, labels, k): # inX是用於分類的輸入向量，dataSet是輸入的訓練樣本集，lebels是標籤向量，k是用於選擇最近鄰居的數目 dataSetSiz

《機器學習實戰》Logistic迴歸演算法（1）

-0.017612 14.053064 0 -1.395634 4.662541 1 -0.752157 6.5386200 -1.322371 7.152853 0 0.42336311.054677 0 0.406704 7.067335 1 0

機器學習筆記(3)---K-近鄰演算法(1)---約會物件魅力程度分類

參考資料《機器學習實戰》，Machine Learning in Action，本文中簡稱MLiA 《機器學習》周志華，本文簡稱西瓜書《Web安全之機器學習》劉焱著，本文中簡稱WSML(Web Security in Machine Learning，

【機器學習實戰-kNN(k-近鄰)】python3實現-書本知識【1】

說明：本文內容為【Peter Harrington -機器學習實戰】一書的學習總結筆記。基本概念： kNN是聚類演算法中一種使用歐式定理計算各個特徵之間的距離而進行分類的基礎演算法，歐式定理：

機器學習實戰精讀--------K-近鄰算法

機器學習 knn算法 k-近鄰算法對機器學習實戰的課本和代碼進行精讀，幫助自己進步。#coding:utf-8 from numpy import * import operator #運算符模塊 from os import listdir #os.listdir() 方法用於返回指定的文件夾包含的

機器學習實戰(一)k-近鄰算法

復雜 ssi bsp 體重工具等級 lap 問題種類　　轉載請註明源出處：http://www.cnblogs.com/lighten/p/7593656.html 1.原理　　本章介紹機器學習實戰的第一個算法——k近鄰算法（k Nearest Neighbor

機器學習實戰——利用AdaBoost元演算法提高分類效能實現記錄

問題：TypeError: __new__() takes from 2 to 4 positional arguments but 6 were given def loadSimpData(): datMat = matrix([1. ,2.1],

【機器學習實戰】FP-growth演算法詳解

Here is code 背景 apriori演算法需要多次掃描資料，I/O 大大降低了時間效率 1. fp-tree資料結構 1> 項頭表記錄所有的1項頻繁集出現的次數，並降序排列 2> fp tree 根據項頭表，構建fp樹 3>

《機器學習實戰1》

2017.2.27 第一章《機器學習基礎》思維導圖 1、關鍵術語的解釋特徵：測量所有可測屬性，而後再挑選出重要部分，也可以稱作屬性分類：機器學習的主要任務就是分類，即根據目標變數對特徵進行分類訓練集：通常我們為演算法輸人大量已分類資料作為演算法的訓練集。訓練集是用

《機器學習實戰》使用ID3演算法構造決策樹

決策樹是一個基本回歸和分類的演算法決策樹的優點： 1.易於理解和解釋，並且可以視覺化。 2.幾乎不需要資料預處理。決策樹還不支援缺失值。 3.可以同時處理數值變數和分類變數。其他方法大都適用於分析一種變數的集合。 4.可以處理多值輸出變數問題。決策樹的缺點：決策樹

機器學習實戰——1.1K近鄰演算法

相關推薦