scikit-learn 中KNN分類繪圖

阿新 • • 發佈：2018-11-29

scikit-learn 中KNN分類繪圖
參考連結：
KNN相關的類庫概述：
https://www.cnblogs.com/pinard/p/6065607.html
下載的toy資料集：
https://blog.csdn.net/sa14023053/article/details/52086695
plt.scatter各引數詳解：
https://blog.csdn.net/weixin_40713373/article/details/80024583

# -*- coding: utf-8 -*-
"""
Created on Sun Nov 25 15:55:09 2018

@author: muli
"""

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets.samples_generator import make_classification
from sklearn import neighbors

# 繪製背景的邊界
from matplotlib.colors import ListedColormap

# 生成隨機資料
# X為樣本特徵，Y為樣本類別輸出, 共1000個樣本，每個樣本2個特徵，
# 輸出有3個類別，沒有冗餘特徵，每個類別一個簇
X, Y = make_classification(n_samples=1000, n_features=2, n_redundant=0,
                             n_clusters_per_class=1, n_classes=3,random_state=1)
# X 為樣本的特徵，此案例中，只定義為兩類
# marker='o'：圓形
# c=Y：顏色，順序或顏色順序， `c`可以是一個二維陣列，其中的行是RGB或RGBA，但是，包括單個的情況行為所有點指定相同的顏色
# 可認為 c 顏色由聚類的簇 n_classes=n 自動決定
plt.scatter(X[:, 0], X[:, 1], marker='o', c=Y)
plt.show()


# KNeighborsClassifier 分類器
clf = neighbors.KNeighborsClassifier(n_neighbors = 15 , weights='distance')
clf.fit(X, Y)


print("------------------------------")

# 顏色濃
cmap_light = ListedColormap(['#FFAAAA', '#AAFFAA', '#AAAAFF'])
# 顏色淡
cmap_bold = ListedColormap(['#FF0000', '#00FF00', '#0000FF'])

# 確認訓練集的邊界
# 由 X特徵的最值確定 確定
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1

# 生成隨機資料來做測試集，然後作預測
# x_min--x_max,步長為 0.02----等差數列
# xx,yy分別是X的兩個特徵的其中一個
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),
                         np.arange(y_min, y_max, 0.02))

# np.r_是按列連線兩個矩陣，就是把兩矩陣上下相加，要求列數相等。
# np.c_是按行連線兩個矩陣，就是把兩矩陣左右相加，要求行數相等。
# Z為測試集的資料
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])

# 畫出測試集資料
Z = Z.reshape(xx.shape)
plt.figure()

# plt.pcolormesh(xx, yy, y_predict, cmap=cmap_light)
# 作用：畫出不同型別資料的色彩範圍--區域
# xx,yy：影象區域內的取樣點--組織成一個點
# y_predict：根據取樣點計算出的每個點所屬的類別
# camp：將相應的值對映到顏色
plt.pcolormesh(xx, yy, Z, cmap=cmap_light)

# 也畫出所有的訓練集資料
plt.scatter(X[:, 0], X[:, 1], c=Y, cmap=cmap_bold)
plt.xlim(xx.min(), xx.max())
plt.ylim(yy.min(), yy.max())
plt.title("3-Class classification (k = 15, weights = 'distance')" )

如圖所示：

scikit-learn 中KNN分類繪圖

scikit-learn 中KNN分類繪圖參考連結： KNN相關的類庫概述： https://www.cnblogs.com/pinard/p/6065607.html 下載的toy資料集： https://blog.csdn.net/sa14023053/a

機器學習---scikit-learn中KNN演算法的封裝

1，工具準備，python環境，pycharm 2，在機器學習中，KNN是不需要訓練過程的演算法，也就是說，輸入樣例可以直接呼叫predict預測結果，訓練資料集就是模型。當然這裡必須將訓練資料和訓練標籤進行擬合才能形成模型。 3 3，在pycharm中建立新的專案工程

scikit-learn中KNN演算法資料歸一化的分裝

import numpy as np class StandardScaler: def __init__(self): """初始化""" """用符號和下劃線表示非使用者傳入的引數""" self.mean_ =

scikit-learn中評價指標

style 說明回歸對比 kit 擬合 size 例如因變量一、R2 決定系數（擬合優度）它是表征回歸方程在多大程度上解釋了因變量的變化，或者說方程對觀測值的擬合程度如何。因為如果單純用殘差平方和會受到你因變量和自變量絕對值大小的影響，不利於在不同模型之間進

k-means+python︱scikit-learn中的KMeans聚類實現( + MiniBatchKMeans)

CP lan sina QQ mmx 機制意義預測內容之前一直用R，現在開始學python之後就來嘗試用Python來實現Kmeans。之前用R來實現kmeans的博客：筆記︱多種常見聚類模型以及分群質量評估（聚類註意事項、使用技巧）聚類分析在客戶

機器學習：SVM（scikit-learn 中的 RBF、RBF 中的超參數 γ）

import colors 機器 class 核函數 RoCE caf 情況方差一、高斯核函數、高斯函數 μ：期望值，均值，樣本平均數；（決定告訴函數中心軸的位置：x = μ） σ2：方差；（度量隨機樣本和平均值之間的偏離程度：，為總體方差，為變量，為總體

輕鬆玩轉 Scikit-Learn 系列 —— KNN 演算法

scikit-learn 是最受歡迎的機器學習庫之一，它提供了各種主流的機器學習演算法的API介面供使用者呼叫，讓使用者可以方便快捷的搭建一些機器學習模型，並且通過調參可以達到很高的準確率。這次我們主要介紹scikit-learn中k近鄰演算法（以下簡稱為KNN）的使用。 KNN是一種非引數機器學習演算

scikit-learn中的KMeans聚類實現

在這篇文章中：之前一直用R，現在開始學python之後就來嘗試用Python來實現Kmeans。之前用R來實現kmeans的部落格：筆記︱多種常見聚類模型以及分群質量評估（聚類注意事項、使用技巧）聚類分析在客戶細分中極為重要。有三類比較常見的聚類模型，K-mea

2. 用scikit-learn估計器分類

# -*- coding: utf-8 -*- """ Created on Sat Sep 22 09:43:28 2018 @author: asus """ #2 用scikit-learn估計器分類 #估計器（Estimator）：用於分類、聚類和迴歸

scikit-learn中的歸一化、標準化處理

什麼是歸一化：歸一化就是把一組數（大於1）化為以1為最大值，0為最小值，其餘資料按百分比計算的方法。如：1，2，3.，那歸一化後就是：0，0.5，1 歸一化步驟：如：2，4，6 （1）找出一組數裡的最小值和最大值，然後就算最大值和最小值的差值 min = 2； m

scikit-learn中gridSearchCV的使用

步驟： 1.選擇並構建訓練模型model 2.將訓練模型model投入到GridSearchCV中，得到GridSearchCV模型grid_model 3.用grid_model擬合訓練集資料，選擇在validation_dataset上效果最好的引數的模型best_

【scikit-learn】評估分類器效能的度量，像混淆矩陣、ROC、AUC等

6. ROC曲線和AUC¶ ROC曲線指受試者工作特徵曲線/接收器操作特性(receiver operating characteristic，ROC)曲線, 是反映靈敏性和特效性連續變數的綜合指標,是用構圖法揭示敏感性和特異性的相互關係，它通過將連續變數設定出多個不同的臨界值，從而計算出一系列敏感性和特異

應用scikit-learn做文字分類

###################################################### #Multinomial Naive Bayes Classifier print '*************************\nNaive Bayes\n*****************

《機器學習系統設計》之應用scikit-learn做文字分類（上）

前言：本系列是在作者學習《機器學習系統設計》（[美] WilliRichert）過程中的思考與實踐，全書通過Python從資料處理，到特徵工程，再到模型選擇，把機器學習解決問題的過程一一呈現。書中設計的原始碼和資料集已上傳到我的資源：http://download

scikit-learn中的Lasson迴歸和Elastic Net迴歸

>>> from sklearn import linear_model >>> reg = linear_model.Lasso(alpha = 0.1) >>> reg.fit([[0, 0], [1, 1]], [0, 1]) Lasso(alph

使用scikit-learn進行文字分類

1. 資料來源所用的資料是分類好的資料，詳細描述見SMS Spam Collection v. 1，可以從github下載，資料在第4章。每一行資料包括包括兩列，使用逗號隔開，第1列是分類（lable），第2列是文字。 sms = pd.read_csv(filen

scikit-learn中交叉驗證及其用於引數選擇、模型選擇、特徵選擇的例子

內容概要訓練集/測試集分割用於模型驗證的缺點 K折交叉驗證是如何克服之前的不足交叉驗證如何用於選擇調節引數、選擇模型、選擇特徵改善交叉驗證 1. 模型驗證回顧進行模型驗證的一個重要目的是要選出一個最合適的模型，對於監督學習而言，我們希望模型

《機器學習系統設計》之應用scikit-learn做文字分類（下）

# inspired by http://scikit- # learn.org/dev/auto_examples/cluster/plot_kmeans_digits.html#example- # cluster-plot-kmeans-digits-py import os import scipy

scikit-learn中的SVM使用指南

本文主要包括以下內容： 1、 sklearn三個SVM分類器（sklearn.svm.LinearSVC，sklearn.svm.SVC，sklearn.svm.NuSVC）的引數詳解 2、SVM演算法調優的一些建議 3、實驗 sklearn.sv

scikit-learn中的多層感知器呼叫模型輸出資料型別為float出現Unknown label type: 'unknown'

受下面截圖的啟發，說的意思好像是輸出型別必須是絕對的（categorical），train_y後加上astype(‘int’)即可，fit(train_x,train_y.astype(‘int’))，但是不能試astype('float')，用這個還是會報錯，具體原因我不清楚，解決方法就是把輸出資

scikit-learn 中KNN分類繪圖

相關推薦