1. 程式人生 > >訓練集(trainning set),測試機(testing set),驗證集(validation set)

訓練集(trainning set),測試機(testing set),驗證集(validation set)

1.交叉驗證

交叉驗證是一種評估統計分析、機器學習演算法對獨立於訓練資料的資料集的泛化能力(generalize)。

2.訓練集,驗證集(注意區別交叉驗證資料集),測試集

一般做預測分析時,會將資料分為兩大部分。一部分是訓練資料,用於構建模型,一部分是測試資料,用於檢驗模型。但是,有時候模型的構建過程中也需要檢驗模型,輔助模型構建,所以會將訓練資料在分為兩個部分:1)訓練資料;2)驗證資料(Validation Data)。驗證資料用於負責模型的構建。典型的例子是用K-Fold Cross Validation裁剪決策樹,求出最優葉節點數,防止過渡擬合(Overfitting)。
所以:
訓練資料(Test Data):用於模型構建
驗證資料(Validation Data):可選,用於輔助模型構建,可以重複使用。
測試資料(Test Data):用於檢測模型構建,此資料只在模型檢驗時使用,用於評估模型的準確率。絕對不允許用於模型構建過程,否則會導致過渡擬合。

驗證集用於進一步網路調參, 而測試集只是用於評估模型的精確度。

3.K次交叉檢驗(K-Fold Cross Validation)

K次交叉檢驗的大致思想是將資料大致分為K個子樣本,每次取一個樣本作為驗證資料,取餘下的K-1個樣本作為訓練資料。模型構建後作用於驗證資料上,計算出當前錯誤率。重複K次,將K次錯誤率平均,得到一個總體的錯誤率。可以通過整體錯誤率,估計當前整體資料用於建模的錯誤率。

舉個例子,K = 10(常見情況),求出總體錯誤率為8.7%。那麼將當前的所有資料全部作為訓練資料,得到的模型的錯誤率90%的可能在9.7%左右。

驗證機與測試集的區別

驗證資料集(validation dataset)是模型訓練過程中留出的樣本集,它可以用於調整模型的超引數和評估模型的能力。但測試資料集(test dataset)不同,雖然同是模型訓練過程中留出的樣本集,但它是用於評估最終模型的效能,幫助對比多個最終模型並做出選擇。

很可能你再也不會在應用機器學習中看到訓練資料集、驗證資料集和測試資料集。

當實踐者選擇在訓練資料集中使用 k-折交叉驗證方法調整模型超引數時,「驗證集」的概念就已經淡化了。

http://www.infosec-wiki.com/?p=309393

https://machinelearningmastery.com/difference-test-validation-datasets/

相關推薦

訓練trainning set測試(testing set)驗證(validation set)

1.交叉驗證 交叉驗證是一種評估統計分析、機器學習演算法對獨立於訓練資料的資料集的泛化能力(generalize)。 2.訓練集,驗證集(注意區別交叉驗證資料集),測試集 一般做預測分析時,會將資料分為兩大部分。一部分是訓練資料,用於構建模型,一部分是測試資料,用於檢驗模型

使用別人訓練好的caffemodel來測試自己的資料only c++

         caffe程式自帶有一張小貓圖片(caffe/examples/images/cat.jpg), 如果我們想用一個訓練好的caffemodel來對這張圖片進行分類,那該怎麼辦呢? 如果不用這張小貓圖片,換一張別的圖片,又該怎麼辦呢?如果學會了小貓圖片的分類

深度學習之TensorFlow使用CNN測試Cifar-10資料Python實現

題目描述: 1. 對Cifar-10影象資料集,用卷積神經網路進行分類,統計正確率。 2.選用Caffe, Tensorflow, Pytorch等開 源深度學習框架之一,學會安裝這些框架並呼叫它們的介面。 3.直接採用這些深度學習框架針對Cifar-10資料集已訓練好的網路模型,只

對vue-cli增加/進行單元測試所遇到的問題及解決方法。 dom節點為null等

1、用vue-cli生成一個新的專案,把單元測試需要的檔案直接複製到你現有的專案中 2.增加啟動入口 "unit": "karma start test/unit/karma.conf.js --single-run" 3.安裝單元測試需要的外掛 npm i

最小支配最小點覆蓋最大獨立貪心/DP

最小支配集(minimal dominating set):對於圖G=(V,E)來說,設V'是圖G的一個支配集,則對於圖中的任意一個頂點u,要麼屬於集合V',要麼與V'中的頂點相連。 在V'中除去任何元素後V'不再是支配集,則支配集V'是極小支配集。稱G中所有支配集中頂點個

FCN訓練自己資料person-segmentation、SIFT-FLOW、SBD和VOC實驗總結

最近花了將近一週的時間,基於提供的原始碼,通過參考網上的部落格,跑通了FCN在三個資料集上的訓練以及測試。在這裡寫下總結,即是記錄,又希望能夠對其他剛剛接觸FCN的人有所幫助。 FCN的原始碼地址:https://github.com/shelhamer/fcn.berkeleyvision.o

使用docker-compose製作mongodb 4 的replica set複製可用方案

首先我的環境是CentOS 6.9+Docker 1.9.1。所以不能跑version "2"和version "3"的寫法。docker-compose.yml寫法如下:   rs0:     image: mongo:latest    

使用deeplabv3+訓練自己資料遷移學習

# 概述 在前邊一篇文章,我們講了如何復現論文程式碼,使用pascal voc 2012資料集進行訓練和驗證,具體內容可以參考[《deeplab v3+在pascal_voc 2012資料集上進行訓練》](https://www.vcjmhg.top/train-deeplabv3-puls-with-pa

【轉】JMeter學習十八JMeter測試Java

sets interval permsize int 文件 不同 時間 結果 argument 實例: 服務為:將輸入的兩個參數通過IO存入文件; 1、打開MyEclipse,編寫Java代碼 服務: package test; import java.io.F

[轉載]Linux後門整理合脈搏推薦

整理 體系 子進程 目標 司機 nbsp 客戶 瀏覽器 -perm 我在思考要不要聯系下....都禁止轉載了.... 簡介 利用 Unix/Linux 自帶的 Bash 和 Crond 實現遠控功能,保持反彈上線到公網機器。 利用方法 先創建 /etc/xxxx

面試練手題網站推薦

htm 公司 書籍 art 算法面試 item 程序員 detail tco 1)leetcode:一般筆試題會從leetcode找 2)橫空出世,席卷互聯網--評微軟等公司數據結構+算法面試100題 對應已出版書籍《編程之法:面試和算法心得》 購買鏈接:http://

Vue-小demo、小效果 合更新中...

lin auto isa hover json () add ole bce (騰訊課堂學習小demo:https://ke.qq.com/course/256052) 一、簡單的指令應用 ——打擊滅火器 圖片素材點擊騰訊課堂的鏈接獲取 html: 1 &

常用css屬性持續更新…

wid 常用 process nowrap alt tex pro -s 51cto 禁止換行,超出部分顯示…:a. 代碼: .hide_word{ max-width: 100px; white-space:nowrap; overflow:hidden; text-ov

6-2 順序表操作20 分

include error class n) log typedef 返回 操作 定義 6-2 順序表操作集(20 分) 本題要求實現順序表的操作集。 函數接口定義: List MakeEmpty(); Position Find( List L, ElementT

python學習筆記十九面向對象編程

時代 alt 類名 rst tps 玉溪 connect nbsp nco 一、面向對象編程 面向對象,是一種程序設計思想。 編程範式:編程範式就是你按照什麽方式去編程,去實現一個功能。不同的編程範式本質上代表對各種類型的任務采取的不同的解決問題的思路,兩種最重要的編程範式

04-樹7 二叉搜索樹的操作30 分

pty clean class 結構 其中 stc stack AI findmi 本題要求實現給定二叉搜索樹的5種常用操作。 函數接口定義: BinTree Insert( BinTree BST, ElementType X ); BinTree Delete( Bin

自編shell腳本合完善中

done ase gpo rep body 合集 schema .sql -name 1.數據庫備份 #!/bin/bash user="root" psword="root" bakdir="/data/mysqlbak" Date=$(date +%F) dbname

Java線程面試題合含答案

call 獲取鎖 getter 監控 同步方法和同步塊 答案 協調 1.8 標記 來源:Java線程面試題 下面是我自己收集整理的Java線程相關的面試題,可以用它來好好準備面試。 參考文檔: 《Java核心技術 卷一》 Java線程面試題 To

二叉搜索樹的操作30 分

ret list 一個 printf let delet 中序遍歷 osi 接口 6-12 二叉搜索樹的操作集(30 分) 本題要求實現給定二叉搜索樹的5種常用操作。 函數接口定義: BinTree Insert( BinTree BST, ElementType X

網易遊戲互娛-遊戲測試開發工程師-C++

藍色 map 答案 左右 hello class image esp 前序 1.已知一棵二叉樹的前序遍歷是ABCDEFGH,那麽它的中序遍歷一定不可能是: A. CBEDAGFHB. BADCFEHGC. DCEBFAHGD. CBDAFEHG 答案:無 考點:二叉樹遍歷