機器學習系列演算法1：KNN

阿新 • • 發佈：2019-05-22

思路：空間上距離相近的點具有相似的特徵屬性。

執行流程：

　　•1. 從訓練集合中獲取K個離待預測樣本距離最近的樣本資料;
　　•2. 根據獲取得到的K個樣本資料來預測當前待預測樣本的目標屬性值

三要素：K值選擇/距離度量（歐式距離）/決策選擇（平均值/加權平均）

Knn問題：資料量大，計算量較大；解決方案：kd-tree

kd-tree：計算方差，根據方差大的劃分

虛擬碼實現：

import numpy as np
from collections import defaultdict


class myknn:

    def fit(self, X, Y, k):
        self.train_x = X
        self.train_y = Y
        self.k = k

    def predict(self, X):
        predict_labels = []
        for x in X:
            # 1. 從訓練資料中獲取K個和當前待預測樣本x最相似的樣本
            neighbors = self.fetch_k_neighbors(x)
            # 2. 將這K個最相似的樣本中出現次數最多的類別作為預測值
            predict_label = self.calc_max_count_label(neighbors)
            # 3. 將當前樣本的預測值新增到臨時的列表中
            predict_labels.append(predict_label)

        return predict_labels

    def fetch_k_neighbors(self, x):
        distances = []
        for neighbor in self.train_x:
            dis = np.sqrt(np.sum((np.array(x) - neighbor) ** 2))
            distances.append(dis)
        neighbors_y_distances = [[neighbor, y, dis] for neighbor, y, dis in zip(self.train_x, self.train_y, distances)]

        k_neighbors_y = sorted(neighbors_y_distances, key=lambda x: x[2])[:self.k]
        return k_neighbors_y

    def calc_max_count_label(self, neighbors):
        y_count = defaultdict(int)
        for neighbor, y, _ in neighbors:
            y_count[y] += 1
        max_count_label = sorted(y_count.items(), key=lambda x: x[1], reverse=True)[0][0]
        return max_count_label


a = myknn()
X = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9],
    [10, 11, 12],
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9],
]
Y = [1, 2, 3, 2, 1, 2, 3]
k = 3
a.fit(X, Y, k)
print(a.predict([[7, 8, 9], ]))

sklearn 實現：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import os

if not os.path.exists('models'): 
    os.mkdir('models')
base_path = './models/'  #模型儲存路徑

from sklearn.datasets import load_iris    #load 鳶尾花資料
from sklearn.model_selection import train_test_split  #資料分割
from sklearn.neighbors import KNeighborsClassifier  #knn分類器
from sklearn.externals import joblib   #持久化

data = pd.read_csv('iris.data', header=None)

print(data.head())
X = data.loc[:, :3] #前4列為特徵資料
Y = data[4]  #最後一列為目標資料  
print(X.head())

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=22)

'''
    def __init__(self,
            n_neighbors=5,   #鄰居數目
            weights='uniform',  #uniform 等權重/distance
            algorithm='auto', #暴力計算和kd-tree
            leaf_size=30,  #構建kd-tree 允許的最大葉子節點
            p=2,    #距離公式
            metric='minkowski', #預設歐式距離
            metric_params=None,
            n_jobs=None,  #開啟多少個執行緒計算
            **kwargs):'''

algo = KNeighborsClassifier(n_neighbors=3)
algo.fit(X_train, Y_train)
print('準確率：{}'.format(algo.score(X_train, Y_train)))

# 持久化
joblib.dump(value=algo, filename=base_path + 'knn.pkl')

機器學習開發流程：

# 1. 資料載入

# 2. 資料的清洗、處理

# 3. 訓練資料和測試資料的劃分

# 4. 特徵工程

# 5. 模型物件構建

# 6. 模型訓練

# 7. 模型效果評估

# 8. 模型持久化
"""
持久化的方式主要三種：
-1. 將模型持久化為二進位制的磁碟檔案。
-2. 將模型引數持久化到資料庫中。
-3. 使用模型對所有資料進行預測，並將預測結果儲存到資料庫中。
"""

機器學習系列演算法1：KNN

思路：空間上距離相近的點具有相似的特徵屬性。執行流程：　　•1. 從訓練集合中獲取K個離待預測樣本距離最近的樣本資料;　　•2. 根據獲取得到的K個樣本資料來預測當前待預測樣本的目標屬性值三要素：K值選擇/距離度量（歐式距離）/決策選擇（平均值/

Spark2.0機器學習系列之1：基於Pipeline、交叉驗證、ParamMap的模型選擇和超引數調優

Spark中的CrossValidation Spark中採用是k折交叉驗證（k-fold cross validation）。舉個例子，例如10折交叉驗證(10-fold cross validation)，將資料集分成10份，輪流將其中9份

機器學習入門（1）--KNN演算法

KNN演算法是一種常用的監督學習方法。生活之中我們想要給一個未知的樣本歸類，通常就是尋找幾個相似事物進行對比。假如，某人看到一隻未知的貓，想知道其屬於什麼品種，往往會在腦海中尋找貓的資訊，當在腦海中發現短尾貓的形態特徵和這隻貓及其相似時，就認為這隻貓是一直短尾貓。 KN

Spark2.0機器學習系列之7： MLPC（多層神經網絡）

element nbsp hid 隨機梯度下降 support file dict 分類器希望 Spark2.0 MLPC（多層神經網絡分類器）算法概述 MultilayerPerceptronClassifier（MLPC）這是一個基於前饋神經網絡的分類器，它是一種在

《機器學習系列教程》：第二章機器學習基礎

第二章機器學習基礎機器學習and 資料分析 2.2 監督學習、非監督學習、半監督學習、弱監督學習？根據資料型別的不同，對一個問題的建模有不同的方式。依據不同的學習方式和輸入資料，機器學習主要分為以下四種學習方式。監督學習：監督學習是使用已知

Spark2.0機器學習系列之11：聚類(冪迭代聚類， power iteration clustering， PIC)

在Spark2.0版本中（不是基於RDD API的MLlib），共有四種聚類方法：（1）K-means （2）Latent Dirichlet allocation (LDA)

Spark2.0機器學習系列之10：聚類(高斯混合模型 GMM）

在Spark2.0版本中（不是基於RDD API的MLlib），共有四種聚類方法：（1）K-means （2）Latent Dirichlet allocation (LDA) （3）Bisecting k-m

Spark2.0機器學習系列之3：決策樹及Spark 2.0-MLlib、Scikit程式碼分析

概述分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹可以看為一個if-then規則集合，具有“互斥完備”性質。決策樹基本上都是採用的是貪心（即非回溯）的演算法，自頂向下遞迴分治構造。生成決策樹一般包含三個步驟：特徵選擇決策樹生成剪枝

Spark2.0機器學習系列之2：Logistic迴歸及Binary分類（二分問題）結果評估

引數設定 α：梯度上升演算法迭代時候權重更新公式中包含 α ： # 梯度上升演算法-計算迴歸係數 # 每個迴歸係數初始化為1 # 重複R次： # 計算整個資料集的梯度 # 使用α*梯度更新迴歸係數的向量 # 返回迴歸係數

Spark機器學習系列之13：支援向量機SVM

C−SVM基本公式推導過程下面摘抄一小部分內容（不考慮推導細節的話，基本上能理解C-SVM方法推導的整個流程）. 我們用一個超平面劃分圖中對圖中的兩類資料進行分類，超平面寫成f(x)=wTx+b=0,線上性可分的情況下，我們能找到一

機器學習各個演算法---1.線性迴歸

1.最原始的linear regression 標準迴歸函式和文字資料匯入函式 from numpy import * def loadDataSet(fileName): #general function to parse tab -delimited f

機器學習系列文章：Apriori關聯規則分析演算法原理分析與程式碼實現

1.關聯規則淺談關聯規則（Association Rules）是反映一個事物與其他事物之間的相互依存性和關聯性，如果兩個或多個事物之間存在一定的關聯關係，那麼，其中一個事物就能通過其他事物預測到。關聯規則是資料探勘的一個重要技術，用於從大量資料中挖掘出有價值的資料

【機器學習系列文章】第1部分：為什麼機器學習很重要？

目錄路線圖關於作者簡單，簡單的解釋，附有數學，程式碼和現實世界的例子。這個系列是一本完整的電子書！在這裡下載。免費下載，貢獻讚賞（paypal.me/ml4h）路線圖第1部分：為什麼機器學習很重要。人工智慧和機器學習的大

機器學習實戰---讀書筆記：第10章利用K均值聚類演算法對未標註資料分組---1

#!/usr/bin/env python # encoding: utf-8 import os from matplotlib import pyplot as plt from numpy import * ''' 讀書筆記之--<<機器學習實戰>>--第10章_

【機器學習實戰之一】：C++實現K-近鄰演算法KNN

本文不對KNN演算法做過多的理論上的解釋，主要是針對問題，進行演算法的設計和程式碼的註解。 KNN演算法：優點：精度高、對異常值不敏感、無資料輸入假定。缺點：計算複雜度高、空間複雜度高。適用資料範圍：數值型和標稱性。工作原理：存在一個樣本資料集合，也稱作訓練樣本集，

【開源】OSharp框架學習系列（1）：總體設計及系列導航

正是 html 組織內聚性權限是什麽 enc 3-0 分發 OSharp是什麽？　　OSharp是個快速開發框架，但不是一個大而全的包羅萬象的框架，嚴格的說，OSharp中什麽都沒有實現。與其他大而全的框架最大的不同點，就是OSharp只做抽象封裝，不做實現。依賴註

斯坦福CS229機器學習課程筆記一：線性迴歸與梯度下降演算法

機器學習三要素機器學習的三要素為：模型、策略、演算法。模型：就是所要學習的條件概率分佈或決策函式。線性迴歸模型策略：按照什麼樣的準則學習或選擇最優的模型。最小化均方誤差，即所謂的 least-squares(在spss裡線性迴歸對應的模組就叫OLS即Ordinary Least Squares)：

機器學習系列：k 近鄰法（k-NN）的原理及實現

本內容將介紹機器學習中的 k k k 近鄰法（

機器學習筆記第1課：機器學習中的資料

資料在機器學習中起著重要的作用。在談論資料時，理解和使用正確的術語非常重要。你如何看待資料？想想電子表格吧，有列、行和單元格。從統計視角而言，機器學習的任務是在假設函式( f )的上下文中構建資料。這些假設函式由機器學習演算法通過學習建立。給定一些輸入變數( Input )，該函式回答

機器學習實戰筆記一：K-近鄰演算法在約會網站上的應用

K-近鄰演算法概述簡單的說，K-近鄰演算法採用不同特徵值之間的距離方法進行分類 K-近鄰演算法優點：精度高、對異常值不敏感、無資料輸入假定。缺點：計算複雜度高、空間複雜度高。適用範圍：數值型和標稱型。 k-近鄰演算法的一般流程收集資料:可使用任何方法

機器學習系列演算法1：KNN

相關推薦