機器學習--k近鄰演算法探索及糖尿病預測

阿新 • • 發佈：2018-12-11

演算法原理：未標記樣本類別由距離其最近的k個鄰居投票決定。計算待標記的樣本和資料集中每個樣本的距離，取距離最近的k個樣本，待標記樣本所屬類別由這k個距離最近的樣本投票產生。

優點：KNN原理簡單，容易實現，結果精度高，無需估計引數，無需訓練模型，可用於分類（投票）和迴歸（平均值），對異常值和噪聲有較高的容忍度；
不足：當樣本容量不平衡時，可能導致需預測的樣本中大容量類的樣本佔多數；可解釋性差；計算量大，對記憶體需求較大，每次對未標記樣本分類時都需全部計算。

演算法引數：k

k值越大，模型偏差越大，對噪聲資料越不敏感，k值很大時可能造成模型欠擬合；
k值越小，模型方差越大，k值太小時造成過擬合。

weight權重：預設計算距離時都使用相同權重，“uniform”，但實際上，可以針對不同鄰居指定不同距離權重，距離越近，權重越高，“distance”.

a. 用k近鄰演算法進行分類

sklearn.neighbors.KNeighborsClassifer

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

# 使用sklearn.datasets.samples_generator中的make_blobs()函式來生成資料集
from sklearn.datasets.samples_generator import make_blobs

# 生成60個訓練樣本，這些樣本以centers引數指定中心的周圍
# cluster_std為標準差，用來指定點分佈的鬆散程度
centers = [[-2,2],[2,2],[0,4]]
# X為以center為中心的60個樣本shape(60，2),y為中心值類別，根據centers不同分為[0,1,2]
X,y = make_blobs(n_samples=60,centers=centers,random_state=0,cluster_std=0.6)

# 將資料集用圖表展現
plt.figure(figsize=(8,5),dpi=144)
c = np.array(centers)
plt.scatter(X[:,0],X[:,1],c=y,s=50,cmap='cool') #畫出樣本
plt.scatter(c[:,0],c[:,1],s=50,marker='^',c='orange') # 畫出中心點
plt.savefig('knn-1.png')

# 使用KNeighborsClassifier對演算法進行訓練
from sklearn.neighbors import KNeighborsClassifier
k=5
clf=KNeighborsClassifier(n_neighbors=k)
# 訓練
clf.fit(X,y)
# 對新樣本預測
X_sample=[[0,2]]
y_sample=clf.predict(X_sample)
# clf.neighbors把樣本週圍5個最近的點取出來，取出來的點是訓練集X裡面的索引
neighbors = clf.kneighbors(X_sample,return_distance=False)

# 把新樣本與最近的5個點標記出來
plt.figure(figsize=(8,5),dpi=144)
plt.scatter(X[:,0],X[:,1],c=y,s=50,cmap='cool') #訓練樣本
plt.scatter(c[:,0],c[:,1],c='orange',marker='^',s=50) #三個中心點
plt.scatter(X_sample[0][0],X_sample[0][1],s=50,marker='x',c=y_sample[0],cmap='cool') #新樣本

# neighbors為二維資料shape(0,5)
for i in neighbors[0]:
    plt.plot([X[i][0],X_sample[0][0]],[X[i][1],X_sample[0][1]],'k--',linewidth=0.6) #預測點與5個近鄰點連線

b. k近鄰演算法進行迴歸

分類問題的預測值是離散的，k近鄰演算法可在連續區間內對數值進行預測，進行迴歸擬合。

sklearn.neighbors.KNeighborsRegressor

from sklearn.neighbors import KNeighborsRegressor
# 生成資料集
n_dots = 40
X=5*np.random.rand(n_dots,1)  #shape(40,1)
#.ravel()將資料降一維, 與,flatten()的作用都是降一維，不同點是ravel返回的是view，flatten返回的是拷貝
y=np.cos(X).ravel()

# 對y新增噪聲
y += 0.2*np.random.rand(n_dots)-0.1

# 訓練模型
k=5
knn=KNeighborsRegressor(n_neighbors=k)
knn.fit(X,y)

# 新樣本:在X軸指定區間內創造足夠多的樣本點，用模型進行預測，把這些的連線起來就構成預測曲線
# [:,np.newaxis]將一維陣列轉換為二維陣列shape(500,1)
T = np.linspace(0,5,500)[:,np.newaxis]
y_predict = knn.predict(T)

# 擬合曲線對訓練樣本的擬合準確性
knn.score(X,y)

# 畫出擬合曲線
plt.figure(figsize=(8,5))
plt.scatter(X,y,label='data',s=50,c='g')  #訓練樣本
plt.plot(T,y_predict,label='prediction',c='k',lw=4)  #擬合曲線
plt.axis('tight')
plt.title('KNeighborsRegressor (k=%i)'%k)
plt.savefig('knn=3.png')

c. 例項：糖尿病預測

資料來源於kaggle

目的是對Pima印第安人的糖尿病進行預測

資料集8個特徵：

Pregnancies: 懷孕次數
Glucose: 口服葡萄糖耐量試驗中血漿葡萄糖濃度
BloodPressure: 舒張壓（mm Hg）
SkinThickness: 三頭肌組織褶厚度（mm）
Insulin: 2小時血清胰島素（μU/ ml）
BMI: 體重指數（kg/（身高(m)）^ 2）
Diabetes Pedigree Function: 糖尿病系統功能
Age: 年齡（歲）

標記值：0 沒有糖尿病，1 有糖尿病

import pandas as pd
data = pd.read_csv('diabetes.csv')
print('dataset shape {}'.format(data.shape))
data.head()

dataset shape (768, 9)

Out[68]:

Pregnancies	Glucose	BloodPressure	SkinThickness	Insulin	BMI	DiabetesPedigreeFunction	Age	Outcome
0	6	148	72	35	0	33.6	0.627	50	1
1	1	85	66	29	0	26.6	0.351	31	0
2	8	183	64	0	0	23.3	0.672	32	1
3	1	89	66	23	94	28.1	0.167	21	0
4	0	137	40	35	168	43.1	2.288	33	1

data.groupby('Outcome').size()

Outcome
0    500
1    268
dtype: int64

1. 使用knn的三種權重對模型進行擬合併比較準確度：

# 分離特徵與目標
X = data.iloc[:,0:8]
Y = data.iloc[:,8]
print('shape of X {};shape of Y {}'.format(X.shape,Y.shape))

# 劃分訓練集與測試集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,Y,test_size=.2)

# 模型比較，普通的k均值演算法、帶權重的k均值演算法、指定半徑的k均值演算法
from sklearn.neighbors import KNeighborsClassifier,RadiusNeighborsClassifier

# 構造三個模型
models=[]
models.append(('KNN',KNeighborsClassifier(n_neighbors=2)))
models.append(('KNN with weights',KNeighborsClassifier(n_neighbors=2,weights='distance')))
models.append(('Radius Neighbors',RadiusNeighborsClassifier(n_neighbors=2,radius=500.0)))

# 分別訓練3個模型，並計算評分
results=[]
for name,model in models:
    model.fit(X_train,y_train)
    results.append((name,model.score(X_test,y_test)))
for i in range(len(results)):
    print('name: {};score: {}'.format(results[i][0],results[i][1]))

name: KNN;score: 0.7012987012987013
name: KNN with weights;score: 0.6883116883116883
name: Radius Neighbors;score: 0.6233766233766234

KNN普通演算法：weights='uniform'，權重相同；
KNN權重演算法：weights='distance'，距離越近，權重越高；
RadiusNeighborsClassifer: 限定半徑最近鄰法，以指定半徑內的點投票決定。

2. 交叉驗證

由於訓練集和測試集是隨機分配的，測試結果具有隨機性，不能用於判斷演算法好壞。因此，多次隨機分配訓練集和交叉驗證測試集，然後對結果取平均值再比較：

從sklearn.model_selection裡匯入KFold, cross_val_score

KFold: K折，將資料集分為K份，(K-1)份為組成訓練集，1份組成驗證集，進行訓練驗證，一共訓練K次

cross_val_score: 總共計算K次交叉驗證準確性結果，再取平均值。

from sklearn.model_selection import KFold,cross_val_score
results = []
for name,model in models:
    # 10折
    kfold = KFold(n_splits=10)
    cv_result = cross_val_score(model,X,Y,cv=kfold)
    results.append((name,cv_result))
for i in range(len(results)):
    print('name: {}; cross val score: {}'.format(results[i][0],results[i][1].mean()))

name: KNN; cross val score: 0.7147641831852358
name: KNN with weights; cross val score: 0.6770505809979495
name: Radius Neighbors; cross val score: 0.6497265892002735

由以上結果，仍然是KNN演算法結果較優，接下來檢視普通KNN演算法對訓練集和驗證集的擬合分數，並進一步畫出學習曲線

3. KNN學習曲線

knn訓練集驗證集擬合情況：

knn = KNeighborsClassifier(n_neighbors=2)
knn.fit(X_train,y_train)
train_score=knn.score(X_train,y_train)
test_score = knn.score(X_test,y_test)
print('train score: {}; test score: {}'.format(train_score,test_score))

train score: 0.8485342019543974; test score: 0.7012987012987013

可以看出，模型對訓練集擬合情況不佳，只有84%準確度，而預測結果的準確性更差，只有70%。

進一步地，檢視學習曲線：

# ShuffleSplit對資料集打亂再分配
from sklearn.model_selection import ShuffleSplit
from common.utiles import plot_learning_curve

cv = ShuffleSplit(n_splits=10,test_size=0.2,random_state=0)
plt.figure(figsize=(10,6))
plot_learning_curve(plt,knn,'Learning Curve for KNN Diabetes',X,Y,ylim=(0.0,1.01),cv=cv)

把訓練樣本數量分成五等分，逐漸增加訓練樣本數：

訓練樣本評分仍然較低，是欠擬合的表現。

# 不同k值訓練結果
nn_score=[]
best_prediction=[-1,-1]
for i in range(1,100):
    knn = KNeighborsClassifier(n_neighbors=i,weights='distance')
    knn.fit(X_train,y_train)
    score = knn.score(X_test,y_test)
    nn_score.append(score)
    if score > best_prediction[1]:
        best_prediction=[i,score]
print(best_prediction)
plt.plot(range(1,100),nn_score)

[10, 0.7532467532467533]

k=10時測試集準確度最高位75%，仍然欠擬合，Knn演算法沒有更好的措施來解決欠擬合問題，只能試著用其他演算法。

4. 特徵選擇及視覺化

用最直觀的方法把k均值演算法不是針對這個資料很好的模型畫出來，但是這個資料有8個特徵，無法在這麼高的維度上畫出，因此，選擇兩個與輸出值關係最大的特徵，在二維平面上畫出輸入值與輸出值的關係：

sklearn.feature_selection裡的SelectKBest可以用來選擇相關性最大的兩個特徵：

from sklearn.feature_selection import SelectKBest

selector = SelectKBest(k=2)
X_new = selector.fit_transform(X,Y)

plt.figure(figsize=(8,5),dpi=200)
plt.ylabel('BMI')
plt.xlabel('Glucose')
# 畫出Y==0的陰性樣本，用圓圈表示
plt.scatter(X_new[Y==0][:,0],X_new[Y==0][:,1],c='r',marker='o',s=10)
# 畫出Y==1的陽性樣本，用三角形表示
plt.scatter(X_new[Y==1][:,0],X_new[Y==1][:,1],c='g',marker='^',s=10)

橫座標是血糖值，縱座標是BMI值，在中間資料密集區，陰性樣本和陽性樣本幾乎重疊，可以直觀地看出k-均值演算法在這個糖尿病預測問題上無法達到很好的預測準確性。

參考：

機器學習--k近鄰演算法探索及糖尿病預測

演算法原理：未標記樣本類別由距離其最近的k個鄰居投票決定。計算待標記的樣本和資料集中每個樣本的距離，取距離最近的k個樣本，待標記樣本所屬類別由這k個距離最近的樣本投票產生。優點：KNN原理簡單，容易實現，結果精度高，無需估計引數，無需訓練模型，可用於分類（投票）和迴歸（平

機器學習 k-近鄰演算法

1、使用python匯入資料 from numpy import * def createDataSet(): group=array([[1.1,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels=['A','A','B','B'] return gr

機器學習-k-近鄰演算法python實踐【4】

寫在最前面：簡單來說，k-近鄰演算法是用來根據不同的特徵進行分類的一種演算法優點：精度高、對異常值不敏感、無資料輸入假定缺點：計算複雜度高、空間複雜度高適用資料範圍：數值型和標稱型 IDE:Pycharm python版本：3.6 作業系統：macOS Mojave k

機器學習-K近鄰演算法

用例一： from sklearn.neighbors import NearestNeighbors import numpy as np X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]]) nbr

機器學習--k-近鄰演算法（kNN）實現手寫數字識別

這裡的手寫數字以0,1的形式儲存在文字檔案中，大小是32x32.目錄trainingDigits有1934個樣本。0-9每個數字大約有200個樣本，命名規則如下：下劃線前的數字代表是樣本0-9的

機器學習——K-近鄰（KNN）演算法

本文轉載自：https://www.cnblogs.com/ybjourney/p/4702562.html 一 . K-近鄰演算法（KNN）概述最簡單最初級的分類器是將全部的訓練資料所對應的類別都記錄下來，當測試物件的屬性和某個訓練物件的屬性完全匹配時，便可以對其進

python機器學習-k近鄰（KNN）演算法例項

機器學習-k近鄰（KNN）本篇主要是自己複習和總結機器學習演算法中最基礎入門的——k近鄰（KNN）演算法，內容由網上百度與摘抄唐宇迪老師的講義。 k近鄰介紹 ——K最近鄰(k-Nearest Neighbor，KNN)，k近鄰演算法可以應用於分類場景與迴歸場

機器學習——k-近鄰(K-Nearest Neighbor)

文件中導入實戰解析 k-近鄰算法分類內容探討精度目錄 K-Nearest neighbor K-近鄰分類算法從文本文件中解析和導入數據使用python創建擴散圖歸一化數值 K-Nearest neighbor （個人觀點，僅供參考。） k-

機器學習——K-means演算法（聚類演算法）

聚類在說K-means聚類演算法之前必須要先理解聚類和分類的區別。分類其實是從特定的資料中挖掘模式，作出判斷的過程。比如Gmail郵箱裡有垃圾郵件分類器，一開始的時候可能什麼都不過濾，在日常使用過程中，我人工對於每一封郵件點選“垃圾”或“不是垃圾”，過一段時間，Gmail就體現出

機器學習--K-means演算法

概述聚類（K-mean）是一種典型的無監督學習。採用距離作為相似性的評價指標，即認為兩個物件的距離越近，其相似度就越大。該演算法認為類簇是由距離靠近的物件組成的，因此把得到緊湊且獨立的簇作為最終目標。核心思想通過迭代尋找k個類簇的一種劃分方案，使得用這k個類簇的均值來代

機器學習-*-K均值聚類及程式碼實現

KMeans聚類在聚類演算法中，最出名的應該就是k均值聚類(KMeans)了，幾乎所有的資料探勘/機器學習書籍都會介紹它，有些初學者還會將其與KNN等混淆。k均值是一種聚類演算法，屬於無監督學習的一種，而KNN是有監督學習/分類學習的一種。聚類：顧名思義，就是講某些相似的事物聚在

【機器學習】Apriori演算法——原理及程式碼實現（Python版）

Apriopri演算法 Apriori演算法在資料探勘中應用較為廣泛，常用來挖掘屬性與結果之間的相關程度。對於這種尋找資料內部關聯關係的做法，我們稱之為：關聯分析或者關聯規則學習。而Apriori演算法就是其中非常著名的演算法之一。關聯分析，主要是通過演算法在大規模資料集中尋找頻繁項集和關聯規則。

機器學習——K-Means演算法

Unsupervised Learning task learning a distribution from sample(GMM/VAE) clustering(PAC) feature learning 按照演算法目的，無監督演算法大體可分為上述三類，

K近鄰演算法理解及實現（python）

KNN的工作原理：給定一個已知標籤類別的訓練資料集，輸入沒有標籤的新資料後，在訓練資料集中找到與新資料最鄰近的k個例項，如果這k個例項的多數屬於某個類別，那麼新資料就屬於這個類別。可以簡單理解為：由那些離X最近的k個點來投票決定X歸為哪一類。在二維平面下：

機器學習——k鄰近演算法的資料解析

def file2matrix(filename): #????? fr = open(filename) #?????????? arrayOLines = fr.r

機器學習--K-means演算法（聚類，無監督學習）

一、基本思想聚類屬於無監督學習，以往的迴歸、樸素貝葉斯、SVM等都是有類別標籤y的，也就是說樣例中已經給出了樣例的分類。而聚類的樣本中卻沒有給定y，只有特徵x，比如假設宇宙中的星星可以表示成三維空間中的點集。聚類的目的是找到每個樣本x潛在的類別y，並將同類別y的樣本x

機器學習-K-Means演算法（附原始碼）

定義俗話說“物以類聚”，其實從廣義上說，聚類就是將資料集中在某些方面相似的資料成員放在一起。一個聚類就是一些資料例項的集合，其中處於相同聚類中的資料元素彼此相似，但是處於不同聚類中的元素彼此不同。由於在聚類中那些表示資料類別的分類或分組資訊是沒有的，即這些資料是沒

機器學習實戰-KNN演算法實現及遇到的問題總結

最近在看《機器學習實戰》這本書，內容充實，重視實踐，很不錯，也很適合機器學習的入門。下面貼上用python編寫的KNN演算法程式碼，放在部落格裡安全啊~~我的電腦隨時都會崩潰的.... from numpy import * import operator from os

python 機器學習K-means演算法實現

\編譯器:pycharm 1.匯入K-means相關包這個包匯入有點坑,有許多依賴包需要匯入,推薦下載Anaconda後,在pycharm匯入Anaconda中的python,在下載sklearn包,就可以開心的敲程式碼了~! 2正式開始: from

2、K-近鄰演算法之約會網站預測

k-近鄰演算法概述定義：簡單地說，k近鄰演算法採用測量不同特徵值之間的距離進行分類原理：存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一資

機器學習--k近鄰演算法探索及糖尿病預測

a. 用k近鄰演算法進行分類

b. k近鄰演算法進行迴歸

c. 例項：糖尿病預測

相關推薦