機器學習實踐（七）—sklearn之K-近鄰演算法

阿新 • • 發佈：2018-11-25

一、K-近鄰演算法(KNN)原理

K Nearest Neighbor演算法又叫KNN演算法，這個演算法是機器學習裡面一個比較經典的演算法，總體來說KNN演算法是相對比較容易理解的演算法

定義

如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別。

來源：KNN演算法最早是由Cover和Hart提出的一種分類演算法
距離公式

兩個樣本的距離可以通過如下公式計算，又叫歐式距離
$d$

i s t a n c e =

∑ i n ( a i

− b i ) 2 distance = \sqrt{\sum_i^n (a_i-b_i)^2} $d i s t a n c e = i \sum n (a_{i} - b_{i})^{2}$

$A = (a_1,a_2,a_3,.....,a_n)$

$B = (b_1,b_2,b_3,.....,b_n)$

二、簡單例項-電影型別分析

假設我們現在有幾部電影

在這裡插入圖片描述

其中 $ ？$表示的電影不知道類別，如何去預測？我們可以利用K近鄰演算法的思想

在這裡插入圖片描述

問題

如果取的最近的電影數量不一樣？會是什麼結果？
- k = 1 ，[愛情片]
- k = 2 ，[愛情片，愛情片]
- k = 3 ，[愛情片，愛情片，愛情片]
- k = 4 ，[愛情片，愛情片，愛情片，動作片]
- k = 6 ，[愛情片，愛情片，愛情片，動作片，動作片，動作片]
分析K-近鄰演算法需要做什麼樣的處理
- k 是一個超引數，需要人為指定，好的 k 值更需要人的豐富經驗
- 當 k 取很大值時，受樣本均衡影響較大
- 當 k 取很小值時，受異常點影響較大

三、sklearn - KNN - API

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’)

n_neighbors
- 查詢預設使用的鄰居數
- int ,可選（預設= 5）
algorithm：
- 可選用於計算最近鄰居的演算法：{‘auto’，‘ball_tree’，‘kd_tree’，‘brute’}
  - ‘ball_tree’將會使用 BallTree，
  - ‘kd_tree’將使用 KDTree。
  - ‘auto’將嘗試根據傳遞給fit方法的值來決定最合適的演算法。
  - (不同實現方式影響效率)

四、KNN - 案例：鳶尾花種類預測

資料集介紹

Iris資料集是常用的分類實驗資料集，由Fisher, 1936收集整理。Iris也稱鳶尾花卉資料集，是一類多重變數分析的資料集。關於資料集的具體介紹：

在這裡插入圖片描述

步驟分析
- 獲取資料集與分割資料集
- 特徵工程：標準化
- 模型訓練評估

完整程式碼

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier

# 載入資料
iris = load_iris()

# 劃分資料集
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.3,random_state=8)

# 標準化
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)

# 訓練模型
estimator = KNeighborsClassifier()
estimator.fit(x_train,y_train)

# 模型評估
# 方法一 比對真實值與預測值
y_predict = estimator.predict(x_test)
y_test == y_predict

# 模型評估
# 方法二 計算準確率
estimator.score(x_test,y_test)

五、KNN優缺點

優點：
- 簡單，易於理解，易於實現，無需訓練
缺點：
- 懶惰演算法，對測試樣本分類時的計算量大，記憶體開銷大
- 必須指定K值，K值選擇不當則分類精度不能保證
使用場景：小資料場景，幾千～幾萬樣本，具體場景具體業務具體分析

機器學習實踐（七）—sklearn之K-近鄰演算法

一、K-近鄰演算法(KNN)原理 K Nearest Neighbor演算法又叫KNN演算法，這個演算法是機器學習裡面一個比較經典的演算法，總體來說KNN演算法是相對比較容易理解的演算法定義如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的

機器學習實踐（六）—sklearn之轉換器和估計器

一、sklearn轉換器想一下之前做的特徵工程的步驟？ 1 例項化 (例項化的是一個轉換器類(Transformer)) 2 呼叫fit_transform(對於文件建立分類詞頻矩陣，不能同時呼叫) 我們

機器學習實踐（三）—sklearn之特徵工程

一、特徵工程介紹 1. 為什麼需要特徵工程 Andrew Ng ： “Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learnin

機器學習實踐（二）—sklearn之資料集

一、可用資料集 Kaggle網址：https://www.kaggle.com/datasets UCI資料集網址： http://archive.ics.uci.edu/ml/ scikit-learn網址：http://scikit-learn.org/sta

機器學習實踐（一）—sklearn之概述

1956年，人工智慧元年。人類能夠創造出人類還未知的東西。這未知的東西人類能夠保證它不誤入歧途嗎。一、機器學習和人工智慧，深度學習的關係機器學習是人工智慧的一個實現途徑深度學習是機器學習的一個方法發展而來二、機器學習，深度

機器學習實踐（五）—sklearn之特徵降維

一、特徵降維概述為什麼要對特徵進行降維處理如果特徵本身存在問題或者特徵之間相關性較強，對於演算法學習預測會影響較大什麼是降維降維是指在某些限定條件下，降低隨機變數(特徵)個數，得到一組“不

機器學習實踐（四）—sklearn之特徵預處理

一、特徵預處理概述什麼是特徵預處理 # scikit-learn的解釋 provides several common utility functions and transformer classes to change raw feature vectors into

機器學習實踐（九）—sklearn之樸素貝葉斯演算法

一、樸素貝葉斯演算法什麼是樸素貝葉斯分類方法屬於哪個類別概率大，就判斷屬於哪個類別概率基礎概率定義為一件事情發生的可能性 P(X) : 取值在[0, 1] 聯合概率、條件概率與相互獨立

機器學習實踐（八）—sklearn之交叉驗證與引數調優

一、交叉驗證與引數調優交叉驗證(cross validation) 交叉驗證：將拿到的訓練資料，分為訓練集、驗證集和測試集。訓練集：訓練集+驗證集測試集：測試集

學習筆記（二）：使用K近鄰演算法檢測Web異常操作

使用全量比較，而不是最頻繁和最不頻繁的比較。 1.資料蒐集我們使用詞集的模型，將全部命令去重後形成一個大型向量空間，每個命令代表一個特徵，首先通過遍歷全部命令，生成對應詞集。 with open(filename) as f: fo

學習筆記（一）：使用K近鄰演算法檢測web異常操作

黑客入侵Web伺服器後，通常會通過系統漏洞進一步提權，獲得ROOT許可權。我們可以通過蒐集LINUX伺服器的bash操作日誌，通過訓練識別出特定使用者的操作習慣，然後進一步識別出異常操作的行為。 1.資料蒐集訓練集包括50個使用者的操作

學習筆記（四）：使用K近鄰演算法檢測WebShell

1.資料蒐集載入ADFA-LD中正常樣本資料： def load_adfa_training_files(rootdir): x=[] y=[] list = os.listdir(rootdir) for i in

學習筆記（三）：使用K近鄰演算法檢測Rootkit

Rootkit是一種特殊的惡意軟體，它的功能是在安裝目標上隱藏自身以及指定的檔案，程序和網路連結等資訊。 1.資料蒐集 KDD 99 TCP連線內容特徵包括hot ,num_faild_login

機器學習筆記（七）Boost演算法（GDBT,AdaBoost，XGBoost）原理及實踐

在上一篇部落格裡，我們討論了關於Bagging的內容，其原理是從現有資料中有放回抽取若干個樣本構建分類器，重複若干次建立若干個分類器進行投票，今天我們來討論另一種演算法：提升（Boost）。簡單地來

機器學習實戰（七）線性迴歸（Linear Regression）

目錄 0. 前言 1. 假設函式（Hypothesis） 2. 標準線性迴歸 2.1. 代價函式（Cost Function） 2.2. 梯度下降（Gradient Descent） 2.3. 特徵縮放（Feat

機器學習筆記（七）：K-Means

1 - 前言之前我們學習的演算法均為監督學習演算法，而K-means是我們所學習的第一個無監督學習演算法。所以首先讓我們瞭解一下監督學習和無監督學習的區別 1.1 - 監督學習（supervised learning）從給定的訓練資料集中學習出一個函式（模型引數），當新的資料

深度學習實踐（一）—tensorflow之概述

內容預覽 1.1 深度學習與機器學習的區別 1.1.1 特徵提取方面 1.1.2 資料量和計算效能要求 1.1.3 演算法代表 1.2 深度學習的應用場景 1.2.1 影象識別 1.2

NG機器學習總結-（七）SVM支援向量機

一、損失函式在邏輯迴歸中，我們的預測函式和損失函式為：預測函式：損失函式：我們知道當y分別是1和0的時候，其cost函式如下黑色曲線部分：不難看出，當 y=1時，隨著 z 取值變大，預測損失變小，因此，邏輯迴歸想要在面對正樣本 y=1時

Spring 學習筆記（七）AOP 之 AOP相關術語介紹

截圖來自 51CTO 徐仕鋒《Spring4深入淺出開發視訊教程》《 2-4 AOP相關屬於介紹》 http://edu.51cto.com//center/course/lesson/index?id=199916 講的清楚，特做記錄。

Spring Boot學習筆記（七）快取之ehche

第一步 pom.xml新增依賴 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-

機器學習實踐（七）—sklearn之K-近鄰演算法

一、K-近鄰演算法(KNN)原理

定義

距離公式

二、簡單例項-電影型別分析

假設我們現在有幾部電影

其中 $ ？$表示的電影不知道類別，如何去預測？我們可以利用K近鄰演算法的思想

問題

三、sklearn - KNN - API

四、KNN - 案例：鳶尾花種類預測

資料集介紹

步驟分析

完整程式碼

五、KNN優缺點

相關推薦