機器學習之kNN分類kneighbors_classifier

阿新 • • 發佈：2018-11-29

機器學習之kNN分類kneighbors_classifier

# -*- coding: utf-8 -*-
"""
Created on Sun Nov 25 12:04:15 2018

@author: muli
"""

import numpy as np
import matplotlib.pyplot as plt
from sklearn import neighbors, datasets,cross_validation


def load_classification_data():
    '''
    載入分類模型使用的資料集。

    :return: 一個元組，依次為：訓練樣本集、測試樣本集、訓練樣本的標記、測試樣本的標記
    '''
    # 使用 scikit-learn 自帶的手寫識別資料集 Digit Dataset
    digits=datasets.load_digits() 
    X_train=digits.data
    y_train=digits.target
    # 進行分層取樣拆分，測試集大小佔 1/4
    return cross_validation.train_test_split(X_train, y_train,test_size=0.25,
            random_state=0,stratify=y_train)


def test_KNeighborsClassifier(*data):
    '''
    測試 KNeighborsClassifier 的用法

    :param data: 可變引數。它是一個元組，這裡要求其元素依次為：訓練樣本集、測試樣本集、訓練樣本的標記、測試樣本的標記
    :return: None
    '''
    X_train,X_test,y_train,y_test=data
    print(y_train.size)
    print("--------------")
    clf=neighbors.KNeighborsClassifier()
    clf.fit(X_train,y_train)
    print("Training Score:%f"%clf.score(X_train,y_train))
    print("Testing Score:%f"%clf.score(X_test,y_test))


def test_KNeighborsClassifier_k_w(*data):
    '''
    測試 KNeighborsClassifier 中 n_neighbors 和 weights 引數的影響

    :param data: 可變引數。
    它是一個元組，這裡要求其元素依次為：訓練樣本集、測試樣本集、訓練樣本的標記、測試樣本的標記
    :return: None
    '''
    X_train,X_test,y_train,y_test=data
    Ks=np.linspace(1,y_train.size,num=100,endpoint=False,dtype='int')
    weights=['uniform','distance']

    fig=plt.figure()
    ax=fig.add_subplot(1,1,1)
    ### 繪製不同 weights 下， 預測得分隨 n_neighbors 的曲線
    for weight in weights:
        training_scores=[]
        testing_scores=[]
        for K in Ks:
            clf=neighbors.KNeighborsClassifier(weights=weight,n_neighbors=K)
            clf.fit(X_train,y_train)
            testing_scores.append(clf.score(X_test,y_test))
            training_scores.append(clf.score(X_train,y_train))
        ax.plot(Ks,testing_scores,label="testing score:weight=%s"%weight)
        ax.plot(Ks,training_scores,label="training score:weight=%s"%weight)
    ax.legend(loc='best')
    ax.set_xlabel("K")
    ax.set_ylabel("score")
    ax.set_ylim(0,1.05)
    ax.set_title("KNeighborsClassifier")
    plt.show()


def test_KNeighborsClassifier_k_p(*data):
    '''
    測試 KNeighborsClassifier 中 n_neighbors 和 p 引數的影響

    :param data: 可變引數。它是一個元組，這裡要求其元素依次為：訓練樣本集、測試樣本集、訓練樣本的標記、測試樣本的標記
    :return: None
    '''
    X_train,X_test,y_train,y_test=data
    Ks=np.linspace(1,y_train.size,endpoint=False,dtype='int')
    Ps=[1,2,10]

    fig=plt.figure()
    ax=fig.add_subplot(1,1,1)
    ### 繪製不同 p 下， 預測得分隨 n_neighbors 的曲線
    for P in Ps:
        training_scores=[]
        testing_scores=[]
        for K in Ks:
            clf=neighbors.KNeighborsClassifier(p=P,n_neighbors=K)
            clf.fit(X_train,y_train)
            testing_scores.append(clf.score(X_test,y_test))
            training_scores.append(clf.score(X_train,y_train))
        ax.plot(Ks,testing_scores,label="testing score:p=%d"%P)
        ax.plot(Ks,training_scores,label="training score:p=%d"%P)
    ax.legend(loc='best')
    ax.set_xlabel("K")
    ax.set_ylabel("score")
    ax.set_ylim(0,1.05)
    ax.set_title("KNeighborsClassifier")
    plt.show()



if __name__=='__main__':
    # 獲取分類模型的資料集
    X_train,X_test,y_train,y_test=load_classification_data() 
    # 呼叫 test_KNeighborsClassifier
#    test_KNeighborsClassifier(X_train,X_test,y_train,y_test) 
    # 呼叫 test_KNeighborsClassifier_k_w
#    test_KNeighborsClassifier_k_w(X_train,X_test,y_train,y_test)
    # 呼叫 test_KNeighborsClassifier_k_p
    test_KNeighborsClassifier_k_p(X_train,X_test,y_train,y_test)

機器學習之kNN分類kneighbors_classifier

機器學習之kNN分類kneighbors_classifier # -*- coding: utf-8 -*- """ Created on Sun Nov 25 12:04:15 2018 @author: muli """ import numpy as np

機器學習之KNN最鄰近分類演算法

KNN演算法簡介 KNN（K-Nearest Neighbor）最鄰近分類演算法是資料探勘分類（classification）技術中最簡單的演算法之一，其指導思想是”近朱者赤，近墨者黑“，即由你的鄰居來推斷出你的類別。 KNN最鄰近分類演算法的實現原理：為了判斷未知樣

機器學習之KNN演算法實現影象分類

閒著無聊，這次自己動手實現一下簡單的KNN分類演算法，來實現對圖片的分類，夯實一下自己的基礎。首先，KNN演算法流程： 1）計算測試資料與各個訓練資料之間的距離； 2）按照距離的遞增關係進行排序； 3）選取距離最小的點； 4）確定最小點所在的位置； 5）返回最

機器學習之KNN的總結

機器學習之KNN的總結本片文章主要寫了針對一個csv資料，目標是對其資料進行分類，怎樣用knn實現在此問題中將該問題分為三個步驟：資料處理：對csv資料進行處理做出適合knn的資料集，包括劃分測試集及訓練集資料擬合：對資料集資料進行擬合資料預測及評價指標

機器學習之KNN原理與程式碼實現

KNN原理與程式碼實現 KNN原理 KNN（k-Nearest Neighbour）：K-近鄰演算法，主要思想可以歸結為一個成語：物以類聚工作原理給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的 k （k

機器學習之XGBoost分類器XGBClassifier-- xgb使用sklearn介面

機器學習之XGBoost分類器XGBClassifier # -*- coding: utf-8 -*- """ Created on Tue Dec 4 20:48:14 2018 @author: muli """ ''' xgb使用sklearn介面

機器學習之線性分類器（Linear Classifiers）——腫瘤預測例項

線性分類器：一種假設特徵與分類結果存線上性關係的模型。該模型通過累加計算每個維度的特徵與各自權重的乘積來幫助決策。 # 匯入pandas與numpy工具包。 import pandas as pd import numpy as np # 建立特徵列表。 column_n

機器學習之KNN（k近鄰）演算法

1、演算法介紹k近鄰演算法是學習機器學習的入門演算法，可實現分類與迴歸，屬於監督學習的一種。演算法的工作原理是：輸入一個訓練資料集，訓練資料集包括特徵空間的點和點的類別，可以是二分類或是多分類。預測時，輸入沒有類別的點，找到k個與該點距離最接近的點，使用多數表決的方法，得出最後的預測分類。

機器學習之KNN（k近鄰）算法

target rom val zip 定義 stat 2-0 datasets tro 1、算法介紹k近鄰算法是學習機器學習的入門算法，可實現分類與回歸，屬於監督學習的一種。算法的工作原理是：輸入一個訓練數據集，訓練數據集包括特征空間的點和點的類別，可以是二分類或是多分類

Python機器學習實戰kNN分類演算法

自學《機器學習實戰》一書，書中的程式碼親自敲一遍，努力搞懂每句程式碼的含義：今天將第一章kNN分類演算法的筆記總結一下。 # -*- coding: utf-8 -*- """ k-近鄰演算法小結: k-近鄰演算法是基於例項的學習，k-近鄰演算法必須儲存全部資料集，

機器學習之KNN（k近鄰）演算法詳解

1-1 機器學習演算法分類一、基本分類： ①監督學習（Supervised learning）資料集中的每個樣本有相應的“正確答案”，根據這些樣本做出預測，分有兩類：迴歸問題和分類問題。步驟1：資料集的建立和分類步

機器學習實戰之KNN分類演算法

示例：使用KNN改進約會網站配對效果(學習這一節把自己需要注意的和理解的記錄下來) 第零步：實現KNN演算法：需注意： classCount[voteIlabel] = classCount.get(voteIlabel,0)+1 #Python 字典(

機器學習之K-最近鄰規則分類(KNN)演算法

準備分為兩個部分，一個是理論，一個就是程式碼實現。程式碼也可以在我的GitHub上下載，後面有連結。一、理論知識相信我的筆記還是比較詳細的二、程式碼實現KNN演算法 1. 首先要生成一些資料集，以供訓練和測試我造的資料是關於通過身高

機器學習之分類問題實戰(基於UCI Bank Marketing Dataset)

表示般的機構文件 cnblogs opened csv文件 mas htm 導讀：分類問題是機器學習應用中的常見問題，而二分類問題是其中的典型，例如垃圾郵件的識別。本文基於UCI機器學習數據庫中的銀行營銷數據集，從對數據集進行探索，數據預處理和特征工程，到學習

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

groups group news ckey put epo test electron final 使用python3 學習樸素貝葉斯分類api 設計到字符串提取特征向量歡迎來到我的git下載源代碼: https://github.com/linyi0604/kag

機器學習之路: python k近鄰分類器鳶尾花分類預測

ber AD uda classes them cal col rds esc 使用python語言學習k近鄰分類器的api 歡迎來到我的git查看源代碼: https://github.com/linyi0604/kaggle 1 from sklearn

機器學習之路: python 決策樹分類預測泰坦尼克號乘客是否幸存

現象 info n) 指標 ssi 直觀 learn 保持 afr 使用python3 學習了決策樹分類器的api 涉及到特征的提取，數據類型保留，分類類型抽取出來新的類型需要網上下載數據集，我把他們下載到了本地，可以到我的git下載代碼和數據集: https

機器學習之路： python 實踐提升樹 XGBoost 分類器

git mac class form 樹模型機器 AS sta imp git: https://github.com/linyi0604/MachineLearning 數據集被我下載到本地，可以去我的git上拿數據集 XGBoost提升分類器屬於集成學習模型

機器學習之利用KNN近鄰算法預測數據

plt 部分制圖標簽預測最近鄰特征值 learn xlsx 前半部分是簡介, 後半部分是案例 KNN近鄰算法: 簡單說就是采用測量不同特征值之間的距離方法進行分類（k-Nearest Neighbor，KNN）優點: 精度高、對異常值不敏感、無數據輸入假定缺

機器學習之K-近鄰（KNN）算法

實戰 http created 以及 dex mda 問題可以轉化占比一 . K-近鄰算法（KNN）概述最簡單最初級的分類器是將全部的訓練數據所對應的類別都記錄下來，當測試對象的屬性和某個訓練對象的屬性完全匹配時，便可以對其進行分類。但是怎麽可能所有測

機器學習之kNN分類kneighbors_classifier

相關推薦