AI工程師成長之路-KNN迴歸演算法實現

阿新 • • 發佈：2018-12-15

本博文是博主在阿里雲大學學習記錄的筆記，未經博主允許禁止隨意轉載。

需要資料集的可以聯絡博主獲取

本實驗將學習如何使用Python實現KNN迴歸演算法。

說明：本實驗的程式檔案與資料在啟動jupyter notebook後，就會在主目錄中顯示，可以直接開啟檢視並執行，但為了增加熟練度，達到最佳的學習效果，建議大家手動輸入。

①匯入程式執行所需的庫。

import numpy as np
import pandas as pd

②載入鳶尾花資料集。並刪除不需要的Id列。然後對資料集進行去重處理。

data = pd.read_csv(r"Iris.csv")
# 刪除不需要的ID與Species列（特徵）。因為現在進行迴歸預測，類別資訊就沒有用處了。
data.drop(["Id", "Species"], axis=1, inplace=True)
# 刪除重複的記錄
data.drop_duplicates(inplace=True)

③定義KNN類，用於迴歸。並在類中定義初始化方法與訓練與預測方法。

class KNN:
    """使用Python實現K近鄰演算法。（迴歸預測）
    
    該演算法用於迴歸預測，根據前3個特徵屬性，尋找最近的k個鄰居，然後再根據k個鄰居的第4個特徵
    屬性，去預測當前樣本的第4個特徵值。
    """
    
    def __init__(self, k):
        """初始化方法
        
        Parameters
        -----
        k : int
            鄰居的個數。
            
        """
        self.k = k
        
    def fit(self, X, y):
        """訓練方法。
        
        Parameters
        -----
        X : 類陣列型別（特徵矩陣）。形狀為[樣本數量， 特徵數量]
            待訓練的樣本特徵（屬性）。
            
        y : 類陣列型別（目標標籤）。形狀為[樣本數量]
            每個樣本的目標值（標籤）
        """
        # 注意，將X與y轉換成ndarray陣列的形式，方便統一進行操作。
        self.X = np.asarray(X)
        self.y = np.asarray(y)
        
    def predict(self, X):
        """根據引數傳遞的X，對樣本資料進行預測。
        
        Paramters:
        -----
        X : 類陣列型別。形狀為[樣本數量， 特徵數量]
            待測試的樣本特徵（屬性）
            
        Returns
        -----
        result : 陣列型別。
            預測的結果值。
        """
        # 轉換成陣列型別
        X = np.asarray(X)
        # 儲存預測的結果值。
        result = []
        for x in X:
            # 計算距離。（計算與訓練集中每個X的距離）
            dis = np.sqrt(np.sum((x - self.X) ** 2, axis=1))
            # 返回陣列排序後，每個元素在原陣列中（排序之前的陣列）的索引。
            index = dis.argsort()
            # 取前k個距離最近的索引（在原陣列中的索引）。
            index = index[:self.k]
            # 計算均值，然後加入到結果列表當中。
            result.append(np.mean(self.y[index]))
        return np.array(result)
    
    def predict2(self, X):
        """根據引數傳遞的X，對樣本資料進行預測。（考慮權重）
        
        權重的計算方式： 使用每個節點（鄰居）距離的倒數 / 所有節點距離倒數之和。
        
        Paramters:
        -----
        X : 類陣列型別。形狀為[樣本數量， 特徵數量]
            待測試的樣本特徵（屬性）
            
        Returns
        -----
        result : 陣列型別。
            預測的結果值。
        """
        # 轉換成陣列型別
        X = np.asarray(X)
        # 儲存預測的結果值。
        result = []
        for x in X:
            # 計算距離。（計算與訓練集中每個X的距離）
            dis = np.sqrt(np.sum((x - self.X) ** 2, axis=1))
            # 返回陣列排序後，每個元素在原陣列中（排序之前的陣列）的索引。
            index = dis.argsort()
            # 取前k個距離最近的索引（在原陣列中的索引）。
            index = index[:self.k]
            # 求所有鄰居節點距離的倒數之和。[注意，最後加上一個很小的值，就是為了避免除數(距離)為0的情況。]
            s = np.sum(1 / (dis[index] + 0.001))
            # 使用每個節點距離的倒數，除以倒數之和，得到權重。
            weight = (1 / (dis[index] + 0.001)) / s
            # 使用鄰居節點的標籤值，乘以對應的權重，然後想加，得到最終的預測結果。
            result.append(np.sum(self.y[index] * weight))
        return np.array(result)

④構建訓練集與測試集，用於對模型進行訓練與預測。並輸出預測結果。

t = data.sample(len(data), random_state=0)
train_X = t.iloc[:120, :-1]
train_y = t.iloc[:120, -1]
test_X = t.iloc[120:, :-1]
test_y = t.iloc[120:, -1]
knn = KNN(k=3)
knn.fit(train_X, train_y)
result = knn.predict(test_X)
display(result)
display(np.mean((result - test_y) ** 2))
display(test_y.values)

程式執行結果如下：

array([1.33333333, 2.        , 1.2       , 1.26666667, 1.93333333,
       1.16666667, 2.16666667, 0.36666667, 1.9       , 1.4       ,
       1.2       , 0.16666667, 1.93333333, 2.26666667, 1.73333333,
       0.13333333, 1.03333333, 1.3       , 1.83333333, 1.23333333,
       0.16666667, 0.23333333, 0.16666667, 2.03333333, 1.2       ,
       1.8       , 0.2       ])
0.04185185185185184
array([1.5, 1.8, 1. , 1.3, 2.1, 1.2, 2.2, 0.2, 2.3, 1.3, 1. , 0.2, 1.6,
       2.1, 2.3, 0.3, 1. , 1.2, 1.5, 1.3, 0.2, 0.4, 0.1, 2.1, 1.1, 1.5,
       0.2])

⑤在考慮權重的情況下，進行預測。

result = knn.predict2(test_X)
display(np.mean((result - test_y) ** 2))

⑥匯入視覺化所需的庫，進行視覺化展示。

import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rcParams["font.family"] = "SimHei"
mpl.rcParams["axes.unicode_minus"] = False

⑦繪製預測值與真實值，並進行對比。

plt.figure(figsize=(10, 10))
# 繪製預測值
plt.plot(result, "ro-", label="預測值")
# 繪製真實值
plt.plot(test_y.values, "go--", label="真實值")
plt.title("KNN連續值預測展示")
plt.xlabel("節點序號")
plt.ylabel("花瓣寬度")
plt.legend()
plt.show()

程式執行結果如下：

KNN迴歸執行結果

AI工程師成長之路-KNN迴歸演算法實現

本博文是博主在阿里雲大學學習記錄的筆記，未經博主允許禁止隨意轉載。需要資料集的可以聯絡博主獲取本實驗將學習如何使用Python實現KNN迴歸演算法。說明：本實驗的程式檔案與資料在啟動jupyter notebook後，就會在主目錄中顯示，可以直接開啟檢視並執行，但

AI工程師成長之路-KNN分類演算法實現

本博文是博主在阿里雲大學學習記錄的筆記，未經博主允許禁止隨意轉載。接下來將學習如何使用Python實現KNN分類演算法。說明：本實驗的程式檔案與資料在啟動jupyter notebook後，就會在主目錄中顯示，可以直接開啟檢視並執行，但為了增加熟練度，達到最佳的學習效

AI工程師成長之路--我該以何種姿態入門

2018 年，人工智慧在各行各業中的落地應用越來越多。十多年前，所有的企業都在想辦法網際網路化，如今，所有的網際網路企業都在試圖 AI 化。技術的競爭歸根結底表現為人才的競爭，毫無疑問 AI 工程師是 IT 行業需求缺口最大的高階技術崗位，薪資水平雖遠高於其他行業

AI工程師成長之路--機器學習之模型評估與選擇

開篇簡介：本文是博主結合前輩經驗和自身的認識寫的博文，有不少博主自身理解還不太透徹，因為考慮到文章的完整性，有些部分需要引用的前輩的一些方法，望諒解。由於文章專業化內容過多，會影響閱讀體驗，在這裡建議大家難以理解的部分先不要去深究，等待需要用到的時候再去深入研究一下。本博

Web前端工程師成長之路——知識匯總

val target avl media 影響比較知識索引成長之路【轉】Web前端工程師成長之路——知識匯總一、何為Web前端工程師？前端工程師，也叫Web前端開發工程師。他是隨著web發展，細分出來的行業。Web前端開發工程

工程師成長之路

俗話說，聽君一席話勝讀十年書，此次有幸參加了《工程師成長之路》分享會。感覺俗話說的一點都沒有錯。自己也已經工作很多年了，工作上有很多的心得體會，遇到的許多問題，走過的彎路，正如分享會上描述的那樣，卻經常感覺找不到解決的方法，此次聽完分享有一種撥雲見月的感覺。工程師與碼農的區別，我想就如設計師和磚瓦工一樣，

工程師成長之路:工作1-3年工程師如何突破瓶頸期?

序因為當年CSDN仍然具有較大的影響力, 所以, 這篇文章及專訪, 當時比較熱門. 有非常多的評論, 截止目前(2016.09.28), 兩個連結下, 總共有1262條評論. 有很多支援的朋友, 有很多反對的朋友, 也有很多隻看到”薪資”的朋友, 我並

IOS成長之路-MD5加密演算法

-(NSString *)md5:(NSString *)str { constchar *cStr = [str UTF8String];//轉換成utf-8 unsigned char result[16];//開闢一個16位元組（128位：m

前端架構師親述：前端工程師成長之路的 N 問及回答

問題回答者：黃軼，目前就職於 Zoom 公司擔任前端架構師，曾就職於滴滴和百度。 1. 前端開發問題大佬，能分享下學習路徑麼，感覺天天忙著開發業務，但是能力好像沒有太大提升，不知道該怎麼充實自己？解答業務開發有沒有痛點，能不能通過技術的手段解決？平時開發業務用到了哪些技術棧和周邊的生

【十】機器學習之路——logistic迴歸python實現

前面一個部落格機器學習之路——logistic迴歸講了logistic迴歸的理論知識，現在咱們來看一下logistic迴歸如何用python來實現，程式碼、資料參考《機器學習實戰》。首先看下我們要處理的資料，我們要做的就是通過logistic

物聯網架構成長之路(47)-利用GitLab實現CI持續整合

0.前言　　前段時間，考慮到要練習部署一套CI/CD的系統。一開始考慮到Jenkins，隨著這兩天的瞭解，發現最新版的GitLab已經提供有CI/CD集成了。所以本次部落格，乾脆一步到位，直接用GitLab裡面的CI/CD模組。Jenkins可能需要更高階的應用場合。經過測試GitLab自帶的功能完全符合我的

web前端研發工程師編程能力成長之路

特征 prot 響應 else 自然編程思想完成尋找文件【背景】如果你是剛進入WEB前端研發領域，想試試這潭水有多深，看這篇文章吧；如果你是做了兩三年WEB產品前端研發，迷茫找不著提高之路，看這篇文章吧；如果你是四五年的前端開發高手，沒有難題能難得住你的寂寞

MATLAB學習之路（三）實現KNN演算法

之前的兩種演算法（CFSFDP與LSH）實現完後，這次我們來實現一個比較簡單的演算法——KNN演算法（K-Nearest Neighbor）KNN演算法又被稱作k近鄰分類演算法(k-nearest n

演算法工程師學習之路

之前是通訊行業工程師，作為流水線上的一顆螺絲釘N年，只是耕耘在自己熟悉的領域，視野比較窄。興趣是最好的老師，興趣引我轉向了這個行業。最開始我對資料分析比較感興趣，後來是資料探勘，再是機器學習，深度學習.. 自然走在這條路上。本人資質也只是勉強夠用，學習過程中也

從新手到專家 ——外包團隊研發工程師的成長之路

大多數選擇從事外包的研發人員更多的是看中外包中高薪資。在外包團隊中，研發人員如何快速提升個人的價值？在團隊中贏得其他同事的尊重、在物質上獲取更大的回報？是我們每一個外包從業者需要思考的問題。外包企業和做產品的公司從專案目標、週期、外部環境等都存在很大的差異。外包專案週期短

Java工程師的成長之路

2、一定要確定自己的發展方向，併為此目的制定可行的計劃。不要說什麼，“我剛畢業，還不知道將來可能做什麼？”，“跟著感覺走，先做做看”。因為，這樣的觀點會通過你的潛意識去暗示你的行為無所事事、碌碌無為。一直做技術，將來成為專家級人物？向管理方向走，成為職業經理人？先熟悉行業和領域，將來自立門戶？還是先在行業裡面

支付寶架構師：講述從工程師到架構師的成長之路

架構師是一個沒有被嚴格定義的角色。在寫這篇文章之前，我特意把這幾年看過的關於架構和架構師的書重新翻了一遍，結果發現它們的定義或多或少有一些不一樣，而經過了這幾年，一些之前同意的觀點，現在的我也不敢苟同了。另一方面，業界對於架構師這個崗位，其實也沒有統一的角色定位。在阿里巴巴，

人工智慧-智慧創意平臺架構成長之路(三)--演算法工程服務化

我們接著人工智慧-智慧創意平臺架構成長之路(二)--大資料架構篇繼續前面我們講了很多都是創意平臺應用層的設計，但是其實在人工智慧中，最重要的是演算法，關於演算法的框架很多，這就會導致底層演算法的實現語言也會非常多，我們最常用的語言是python，其次是C或者C++，還有go語言實現的

原創電子書《菜鳥程式設計師成長之路：從技術小白到阿里巴巴Java工程師》

《菜鳥程式設計師成長之路：從技術小白到阿里巴巴Java工程師》國慶節快樂！一年一度長度排第二的假期終於來了。難得有十一長假，作者也想要休息幾天啦。不管你是選擇出門玩，還是在公司加班，在學校複習，都希望你過好這個長假。沒有出去玩的也不用羨慕別人，利用這段時間充充電，不比去旅遊看人頭要好的多嗎？最近終於

一只菜鳥的成長之路

小強測試品牌性能測試軟件測試瘋狂講義轉型測試引子以下內容選自《小強軟件測試瘋狂講義》一書正文簡單地自我介紹，就是一只數學專業，腦洞極大，深度強迫癥，編程菜鳥，顏控，但人醜的少女。我的願望很簡單，一輩子隨遇而安家庭幸福，但希望能一直堅持努力成為有技術含量的妹紙。什麽叫做“

AI工程師成長之路-KNN迴歸演算法實現

相關推薦