AI工程師成長之路-KNN分類演算法實現

阿新 • • 發佈：2018-12-15

本博文是博主在阿里雲大學學習記錄的筆記，未經博主允許禁止隨意轉載。

接下來將學習如何使用Python實現KNN分類演算法。

說明：本實驗的程式檔案與資料在啟動jupyter notebook後，就會在主目錄中顯示，可以直接開啟檢視並執行，但為了增加熟練度，達到最佳的學習效果，建議大家手動輸入。

①匯入程式執行所需的庫。

import numpy as np
import pandas as pd

②讀取鳶尾花資料集，並對資料集進行預處理。

# 讀取鳶尾花資料集，header引數來指定標題的行。預設為0。如果沒有標題，則使用None。
data = pd.read_csv(r"Iris.csv", header=0)
# 顯示前n行記錄。預設n的值為5。
# data.head()
# 顯示末尾的n行記錄。預設n的值為5。
#data.tail()
# 隨機抽取樣本。預設抽取一條，我們可以通過引數進行指定抽取樣本的數量。
# data.sample(10)
# 將類別文字對映成為數值型別。
data["Species"] = data["Species"].map({"Iris-virginica": 0, "Iris-setosa": 1, "Iris-versicolor": 2})
# 刪除不需要的Id列。
data.drop("Id", axis=1, inplace=True)
# data.duplicated().any()
# 檢視資料集的記錄數。
# len(data)
# 刪除重複的記錄。
data.drop_duplicates(inplace=True)
# len(data)
# 檢視各個類別的鳶尾花具有多少條記錄。
data["Species"].value_counts()

③定義KNN類，用於分類。類中定義兩個預測方法，分為考慮權重與不考慮權重兩種情況。

class KNN:
    """使用Python語言實現K近鄰演算法。（實現分類）"""
    
    def __init__(self, k):
        """初始化方法
        
        Parameters
        -----
        k : int
            鄰居的個數。
        
        """
        self.k = k
        
    def fit(self, X, y):
        """訓練方法
        
        Parameters
        -----
        X : 類陣列型別，形狀為：[樣本數量, 特徵數量]
            待訓練的樣本特徵（屬性）
        
        y : 類陣列型別，形狀為： [樣本數量]
            每個樣本的目標值（標籤）。
        """
        
        # 將X轉換成ndarray陣列型別。
        self.X = np.asarray(X)
        self.y = np.asarray(y)
        
    def predict(self, X):
        """根據引數傳遞的樣本，對樣本資料進行預測。
        
        Parameters
        -----
        X : 類陣列型別，形狀為：[樣本數量, 特徵數量]
            待訓練的樣本特徵（屬性） 
        
        Returns
        -----
        result : 陣列型別
            預測的結果。
        
        """
        
        X = np.asarray(X)
        result = []
        # 對ndarray陣列進行遍歷，每次取陣列中的一行。
        for x in X:
            # 對於測試集中的每一個樣本，依次與訓練集中的所有樣本求距離。
            dis = np.sqrt(np.sum((x - self.X) ** 2, axis=1))
            # 返回陣列排序後，每個元素在原陣列（排序之前的陣列）中的索引。
            index = dis.argsort()
            # 進行截斷，只取前k個元素。【取距離最近的k個元素的索引】
            index = index[:self.k]
            # 返回陣列中每個元素出現的次數。元素必須是非負的整數。
            count = np.bincount(self.y[index])
            # 返回ndarray陣列中，值最大的元素對應的索引。該索引就是我們判定的類別。
            # 最大元素索引，就是出現次數最多的元素。
            result.append(count.argmax())
        return np.asarray(result)
    
    def predict2(self, X):
        """根據引數傳遞的樣本，對樣本資料進行預測（考慮權重的，使用距離的倒數作為權重）。
        
        Parameters
        -----
        X : 類陣列型別，形狀為：[樣本數量, 特徵數量]
            待訓練的樣本特徵（屬性） 
        
        Returns
        -----
        result : 陣列型別
            預測的結果。
        
        """
        
        X = np.asarray(X)
        result = []
        # 對ndarray陣列進行遍歷，每次取陣列中的一行。
        for x in X:
            # 對於測試集中的每一個樣本，依次與訓練集中的所有樣本求距離。
            dis = np.sqrt(np.sum((x - self.X) ** 2, axis=1))
            # 返回陣列排序後，每個元素在原陣列（排序之前的陣列）中的索引。
            index = dis.argsort()
            # 進行截斷，只取前k個元素。【取距離最近的k個元素的索引】
            index = index[:self.k]
            # 返回陣列中每個元素出現的次數。元素必須是非負的整數。【使用weights考慮權重，權重為距離的倒數。】
            count = np.bincount(self.y[index], weights=1 / dis[index])
            # 返回ndarray陣列中，值最大的元素對應的索引。該索引就是我們判定的類別。
            # 最大元素索引，就是出現次數最多的元素。
            result.append(count.argmax())
        return np.asarray(result)

④構建訓練集與測試集，用於對模型進行訓練與測試。

# 提取出每個類比的鳶尾花資料
t0 = data[data["Species"] == 0]
t1 = data[data["Species"] == 1]
t2 = data[data["Species"] == 2]
# 對每個類別資料進行洗牌。
t0 = t0.sample(len(t0), random_state=0)
t1 = t1.sample(len(t1), random_state=0)
t2 = t2.sample(len(t2), random_state=0)
# 構建訓練集與測試集。
train_X = pd.concat([t0.iloc[:40, :-1], t1.iloc[:40, :-1], t2.iloc[:40, :-1]], axis=0)
train_y = pd.concat([t0.iloc[:40, -1], t1.iloc[:40, -1], t2.iloc[:40, -1]], axis=0)
test_X = pd.concat([t0.iloc[40:, :-1], t1.iloc[40:, :-1], t2.iloc[40:, :-1]], axis=0)
test_y = pd.concat([t0.iloc[40:, -1], t1.iloc[40:, -1], t2.iloc[40:, -1]], axis=0)
# 建立KNN物件，進行訓練與測試。
knn = KNN(k=3)
# 進行訓練
knn.fit(train_X, train_y)
# 進行測試，獲得測試的結果。
result = knn.predict(test_X)
# display(result)
# display(test_y)
display(np.sum(result == test_y))
display(np.sum(result == test_y)/ len(result))

程式執行結果如下：

26
0.9629629629629629

⑤在考慮權重的情況下，進行測試。

# 考慮權重，進行一下測試。
result2 = knn.predict2(test_X)
display(np.sum(result2 == test_y))

程式執行結果如下：

⑥匯入視覺化所必須的庫。

import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rcParams["font.family"] = "SimHei"
mpl.rcParams["axes.unicode_minus"] = False

⑦繪製散點圖。為了能夠更方便的進行視覺化，這裡只選擇了兩個維度（分別是花萼長度與花瓣長度）。

# {"Iris-virginica": 0, "Iris-setosa": 1, "Iris-versicolor": 2})
# 設定畫布的大小
plt.figure(figsize=(10, 10))
# 繪製訓練集資料
plt.scatter(x=t0["SepalLengthCm"][:40], y=t0["PetalLengthCm"][:40], color="r", label="Iris-virginica")
plt.scatter(x=t1["SepalLengthCm"][:40], y=t1["PetalLengthCm"][:40], color="g", label="Iris-setosa")
plt.scatter(x=t2["SepalLengthCm"][:40], y=t2["PetalLengthCm"][:40], color="b", label="Iris-versicolor")
# 繪製測試集資料
right = test_X[result == test_y]
wrong = test_X[result != test_y]
plt.scatter(x=right["SepalLengthCm"], y=right["PetalLengthCm"], color="c", marker="x", label="right")
plt.scatter(x=wrong["SepalLengthCm"], y=wrong["PetalLengthCm"], color="m", marker=">", label="wrong")
plt.xlabel("花萼長度")
plt.ylabel("花瓣長度")
plt.title("KNN分類結果顯示")
plt.legend(loc="best")
plt.show()

程式執行結果如下：

KNN分類結果

AI工程師成長之路-KNN分類演算法實現

本博文是博主在阿里雲大學學習記錄的筆記，未經博主允許禁止隨意轉載。接下來將學習如何使用Python實現KNN分類演算法。說明：本實驗的程式檔案與資料在啟動jupyter notebook後，就會在主目錄中顯示，可以直接開啟檢視並執行，但為了增加熟練度，達到最佳的學習效

AI工程師成長之路-KNN迴歸演算法實現

本博文是博主在阿里雲大學學習記錄的筆記，未經博主允許禁止隨意轉載。需要資料集的可以聯絡博主獲取本實驗將學習如何使用Python實現KNN迴歸演算法。說明：本實驗的程式檔案與資料在啟動jupyter notebook後，就會在主目錄中顯示，可以直接開啟檢視並執行，但

AI工程師成長之路--我該以何種姿態入門

2018 年，人工智慧在各行各業中的落地應用越來越多。十多年前，所有的企業都在想辦法網際網路化，如今，所有的網際網路企業都在試圖 AI 化。技術的競爭歸根結底表現為人才的競爭，毫無疑問 AI 工程師是 IT 行業需求缺口最大的高階技術崗位，薪資水平雖遠高於其他行業

AI工程師成長之路--機器學習之模型評估與選擇

開篇簡介：本文是博主結合前輩經驗和自身的認識寫的博文，有不少博主自身理解還不太透徹，因為考慮到文章的完整性，有些部分需要引用的前輩的一些方法，望諒解。由於文章專業化內容過多，會影響閱讀體驗，在這裡建議大家難以理解的部分先不要去深究，等待需要用到的時候再去深入研究一下。本博

Web前端工程師成長之路——知識匯總

val target avl media 影響比較知識索引成長之路【轉】Web前端工程師成長之路——知識匯總一、何為Web前端工程師？前端工程師，也叫Web前端開發工程師。他是隨著web發展，細分出來的行業。Web前端開發工程

工程師成長之路

俗話說，聽君一席話勝讀十年書，此次有幸參加了《工程師成長之路》分享會。感覺俗話說的一點都沒有錯。自己也已經工作很多年了，工作上有很多的心得體會，遇到的許多問題，走過的彎路，正如分享會上描述的那樣，卻經常感覺找不到解決的方法，此次聽完分享有一種撥雲見月的感覺。工程師與碼農的區別，我想就如設計師和磚瓦工一樣，

工程師成長之路:工作1-3年工程師如何突破瓶頸期?

序因為當年CSDN仍然具有較大的影響力, 所以, 這篇文章及專訪, 當時比較熱門. 有非常多的評論, 截止目前(2016.09.28), 兩個連結下, 總共有1262條評論. 有很多支援的朋友, 有很多反對的朋友, 也有很多隻看到”薪資”的朋友, 我並

IOS成長之路-MD5加密演算法

-(NSString *)md5:(NSString *)str { constchar *cStr = [str UTF8String];//轉換成utf-8 unsigned char result[16];//開闢一個16位元組（128位：m

前端架構師親述：前端工程師成長之路的 N 問及回答

問題回答者：黃軼，目前就職於 Zoom 公司擔任前端架構師，曾就職於滴滴和百度。 1. 前端開發問題大佬，能分享下學習路徑麼，感覺天天忙著開發業務，但是能力好像沒有太大提升，不知道該怎麼充實自己？解答業務開發有沒有痛點，能不能通過技術的手段解決？平時開發業務用到了哪些技術棧和周邊的生

KNN分類演算法實現By Java

K最近鄰(k-Nearest Neighbor，KNN)分類演算法，是一個理論上比較成熟的方法，也是最簡單的機器學習演算法之一。該方法的思路是：如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別。KNN演算法中，

Hadoop/MapReduce 及 Spark KNN分類演算法實現

KNN 假如有一群已知分類的點集： //S.txt 100;c1;1.0,1.0 101;c1;1.1,1.2 102;c1;1.2,1.0 103;c1;1.6,1.5 104;c1;1.3,1.7 105;c1;2.0,2.1 106;c1;2.0,2.2 107;c

文字挖掘——基於TF-IDF的KNN分類演算法實現

一、專案背景此專案是用於基建大資料的文字挖掘。首先爬蟲師已經從各個公開網站上採集了大量的文字，這些文字是關於基建行業的各種招中標公告，文本里會有部分詞彙明顯或者隱晦的介紹此專案是關於哪一工程類別的，比如公路工程，市政工程，建築工程，軌道交通工程，等等。

物聯網架構成長之路(47)-利用GitLab實現CI持續整合

0.前言　　前段時間，考慮到要練習部署一套CI/CD的系統。一開始考慮到Jenkins，隨著這兩天的瞭解，發現最新版的GitLab已經提供有CI/CD集成了。所以本次部落格，乾脆一步到位，直接用GitLab裡面的CI/CD模組。Jenkins可能需要更高階的應用場合。經過測試GitLab自帶的功能完全符合我的

web前端研發工程師編程能力成長之路

特征 prot 響應 else 自然編程思想完成尋找文件【背景】如果你是剛進入WEB前端研發領域，想試試這潭水有多深，看這篇文章吧；如果你是做了兩三年WEB產品前端研發，迷茫找不著提高之路，看這篇文章吧；如果你是四五年的前端開發高手，沒有難題能難得住你的寂寞

【分類】KNN分類演算法之Python實現

KNN稱為K最近鄰。對於待分類資料，它先計算出與其最相近的K個的樣本，然後判斷這K個樣本中最多的類標籤，並將待分類資料標記為這個最多的類標籤。 python樣例程式碼： import numpy as np from sklearn.neighbors import KN

sklearn學習筆記之knn分類演算法

# -*- coding: utf-8 -*- import sklearn from sklearn import neighbors import matplotlib.pyplot as plt from sklearn.model_selection import train_test_

MATLAB學習之路（三）實現KNN演算法

之前的兩種演算法（CFSFDP與LSH）實現完後，這次我們來實現一個比較簡單的演算法——KNN演算法（K-Nearest Neighbor）KNN演算法又被稱作k近鄰分類演算法(k-nearest n

演算法工程師學習之路

之前是通訊行業工程師，作為流水線上的一顆螺絲釘N年，只是耕耘在自己熟悉的領域，視野比較窄。興趣是最好的老師，興趣引我轉向了這個行業。最開始我對資料分析比較感興趣，後來是資料探勘，再是機器學習，深度學習.. 自然走在這條路上。本人資質也只是勉強夠用，學習過程中也

機器學習實戰之KNN分類演算法

示例：使用KNN改進約會網站配對效果(學習這一節把自己需要注意的和理解的記錄下來) 第零步：實現KNN演算法：需注意： classCount[voteIlabel] = classCount.get(voteIlabel,0)+1 #Python 字典(

從新手到專家 ——外包團隊研發工程師的成長之路

大多數選擇從事外包的研發人員更多的是看中外包中高薪資。在外包團隊中，研發人員如何快速提升個人的價值？在團隊中贏得其他同事的尊重、在物質上獲取更大的回報？是我們每一個外包從業者需要思考的問題。外包企業和做產品的公司從專案目標、週期、外部環境等都存在很大的差異。外包專案週期短

AI工程師成長之路-KNN分類演算法實現

相關推薦