用K折交叉驗證估計KNN演算法中的K值

阿新 • • 發佈：2018-12-31

前幾天用KNN對自己的資料進行了分類，對於KNN中的K值，之前一直是靠緣分來試的，試的時候感覺K=3的效果挺好的。之後看了好多CSDN的部落格，發現一般大家除了靠緣分去試K值之外，也會採用交叉驗證的方法去近似求得K值，因此我決定自己實現一下，看看有什麼效果。

交叉驗證之前老師在將資料探勘的時候簡單的介紹了一下，那時候只記得10折交叉驗證，而且並沒有去實驗，所以早就忘得一乾二淨。

K折交叉驗證，在matlab中已經集成了函式crossvalind,可以直接呼叫。

所謂K折交叉驗證（K-foldcross validation），其過程如下：

（1）將全部訓練集S分成K個不相交的子集，假設S中的訓練樣例個數為m，那麼每一個子集有m/k個訓練樣例。

（2）每次從分好的子集中，選出一個作為測試集，另外k-1個作為訓練集。

（3）根據訓練集得到模型。

（4）根據模型對測試集進行測試，得到分類率。

（5）計算k次求得的分類率的平均值，作為模型的最終分類率。

雖然計算過程比較繁瑣，但是我覺得還可以，畢竟我的資料不是很多。。。。

datatrain = xlsread('traindata1.xlsx'); %讀訓練資料
traindata1 = datatrain(:,1:180); %訓練樣本
trainlabel1 = datatrain(:,181);  %訓練樣本對應的標籤
find_params = 5;
test_K = 1:30;    %測試的K值範圍
length = size(traindata1, 1);
index = 1:find_params:length;
testdata = traindata1(index,:); %獲得測試資料
testlabel = trainlabel1(index,:); %獲得測試標籤
traindata = traindata1;
trainlabel = trainlabel1;
traindata(index,:) = [];
trainlabel(index,:) = [];
avgLosses = zeros(size(test_K));
 for K = test_K
            predict_t = knnclassify(testdata, traindata, trainlabel, K, 'Euclidean');
            %loss = ZeroOneLoss(predict_t, testlabel);
            predict_t = predict_t';
            testlabel = testlabel';
            nomatch = 0;
            [row,column] = size(testlabel);
            for i = 1:column
                if predict_t(i) == testlabel(i)
                    continue;
                else 
                    nomatch = nomatch + 1;
                end
            end
            loss = nomatch / column;
            avgLosses(K) = loss;
 end
 best = 1;
 for K = test_K
     if avgLosses(K) < best
         best = avgLosses(K);
         ret = K;
     end
 end
[row2, column2] = size(avgLosses);
 
 for i = 1:column2
     avgAccurate(i) = 1 - avgLosses(i);
 end
 hold on;
 set(gca,'xtick',[1:1:30]);
 plot(avgAccurate,'b');

執行結果如下：

個人感覺這個結果很奇怪，但是可以看出K=3的時候正確率是最高的。

用K折交叉驗證估計KNN演算法中的K值

ML作業1——KNN+k折交叉驗證

程式碼：# -*- coding: utf-8 -*- """ Created on Fri Mar 23 11:48:16 2018 @author: 安穎 """ import numpy as np import matplotlib.pyplot as plt

R語言——K折交叉驗證之隨機均分數據集

present sent new 理解 6.5 ble 數據表 uno repr 今天，在閱讀吳喜之教授的《復雜數據統計方法》時，遇到了把一個數據集按照某個因子分成若幹子集，再把若幹子集隨機平均分成n份的問題，吳教授的方法也比較好理解，但是我還是覺得有點繁瑣，因此自己編寫了

留出法、K折交叉驗證、留一法進行數據集劃分

leave targe lec digits 行數據 import one 訓練訓練集 from sklearn import datasets from sklearn import model_selection #引入sklearn庫中手寫數字的數據集 digit

kreas搭建神經網路預測波士頓房價（手寫K折交叉驗證）

1、程式說明所有注意事項均寫入註釋 from keras.datasets import boston_housing import numpy as np from keras import models from keras import layers from keras.o

機器學習之模型選擇（K折交叉驗證，超引數的選擇）

來源： https://www.cnblogs.com/jerrylead/archive/2011/03/27/1996799.html 對於解決同一個問題，如怎麼選擇模型去擬合線性迴歸中只有一個特徵時房價預測問題，如可能有不同的模型去解決，如： 1、d = 1，h（

k折交叉驗證 cannot import name 'cross_validation' 解決方法

問題：k折交叉驗證輸入方法 from sklearn.model_selection import cross_validation 提示： cannot import name 'cross_validation' 解決方案： 01 更新後的輸入

【K折交叉驗證】K值到底如何選擇？

引言想必做機器學習的，都不同程度的用過交叉驗證(cross validation)，通常使用交叉驗證評估一個機器學習模型的表現。交叉驗證有很長的歷史，但交叉驗證的研究有不少待解決的問題。就交叉驗證的K值選取來講，可能一部分人不加思考，只是泛泛的使用常規的10

泛化能力、訓練集、測試集、K折交叉驗證、假設空間、欠擬合與過擬合、正則化（L1正則化、L2正則化）、超引數

泛化能力（generalization）：機器學習模型。在先前未觀測到的輸入資料上表現良好的能力叫做泛化能力（generalization）。訓練集（training set）與訓練錯誤（training error）：訓練機器學習模型使用的資料集稱為訓練集（tr

模式識別之k-折交叉驗證(k-fold crossValidation)

（1）英文名叫做10-fold cross-validation，用來測試演算法準確性，是常用的測試方法。（2）將資料集分成十份，輪流將其中9份作為訓練資料，1份作為測試資料，進行試驗。每次試驗都會得出相應的正確率（或差錯率）。（3）10次的結果的正確率（或差錯率）的平均值作為對演算法精度的估計，

K折交叉驗證-python

1.Cross Validation （交叉驗證） cross validation大概的意思是：對於原始資料我們要將其一部分分為train_data，一部分分為test_data。train_data用於訓練，test_data用於測試準確率。在test_data上測

K-折交叉驗證(k-fold crossValidation)以及在matlab中的實現

轉載原文定義：在機器學習中，將資料集A分為訓練集B（training set）和測試集C（test set），在樣本量不充足的情況下，為了充分利用資料集對演算法效果進行測試，將資料集A隨機分為k個包，每次將其中一個包作為測試集，剩下k-1個包作為訓練集進

【機器學習】交叉驗證，K折交叉驗證的偏差和方差分析

交叉驗證部分參考：模型選擇中的交叉驗證方法綜述,山西大學，範永東（這是一篇碩士論文，原文內容有點囉嗦，存在一些錯誤。本文對其交叉驗證部分校對整理）交叉驗證是一種通過估計模型的泛化誤差，從而進行模型選擇的方法。沒有任何假定前提，具有應用的普遍性，操

k-折交叉驗證(k-fold crossValidation)

十折交叉驗證（1）英文名叫做10-fold cross-validation，用來測試演算法準確性，是常用的測試方法。（2）將資料集分成十份，輪流將其中9份作為訓練資料，1份作為測試資料，進行試驗。每次試驗都會得出相應的正確率（或差錯率）。（3）10次的結果的正確率（或差錯率）的平均值作為對演

超引數、驗證集和K-折交叉驗證

- 本文首發自公眾號：[RAIS](https://ai.renyuzhuo.cn/img/wechat_ercode.png) ## 前言本系列文章為《Deep Learning》讀書筆記，可以參看原書一起閱讀，效果更佳。 ## 超引數 - 引數：網路模型在訓練過程中不斷學習自動調節的變數，

ML之迴歸預測之Lasso：利用Lasso演算法解決迴歸(實數值評分預測)問題—採用10折交叉驗證(測試集error)來評估LassoCV模型

ML之迴歸預測之Lasso：利用Lasso演算法解決迴歸(實數值評分預測)問題—採用10折交叉驗證(測試集error)來評估LassoCV模型輸出結果設計思路核心程式碼 if t==1: X = numpy.ar

用交叉驗證調整KNN模型的引數

import pandas as pd import matplotlib.pyplot as plt import numpy as np #載入資料 def inspect_data(file_root): dataframe=pd.read_csv(file_r

python實現周志華西瓜書《機器學習》習題3.4 對比10折交叉驗證和留一法的對率迴歸錯誤率

這道題仍然在抄大神程式碼的基礎上寫註釋，首先感謝原始碼： https://blog.csdn.net/Snoopy_Yuan/article/details/64131129 感想是：sklearn是個好東西，如果沒有現成的驗證方法，光是10折驗證就要造10個表格才行，而用現成的庫，一

KNN演算法原理 K Nearest Neighbour

K-臨近演算法原理簡單地說，K-近鄰演算法採用測量不同特徵值之間的距離方法進行分類。存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一資料與所屬分類的對應關係。輸入沒有標籤的新資料後，將新資料的每個特徵與樣本集中資料對應的特徵進行比較

實現k折交叉，並取每個模型的平均值

from sklearn.model_selection import KFold X=train_data kf = KFold(n_splits=6) modelsave=[] #用來儲存模型 for train_index, test_index in kf

用K折交叉驗證估計KNN演算法中的K值

相關推薦