如果使用交叉驗證,是否還需要單獨分出測試集?
比方說,用100k條數據,有兩個思路
1. 用這100k條數據做k-fold交叉驗證,來調模型參數
2. 先隨機劃分出70k條數據做訓練集用來根據交叉驗證調參數,調好之後再用剩下的30k條數據做測試集
【答】
雖然這兩個都沒有錯對之分,但是在數據量允許的情況下,更建議第2個思路。
對於思路1,如果用交叉驗證的預測誤差作為模型的預測誤差,這是有偏差的。因為交叉驗證的誤差通常是小於真實測試誤差的。
思路2是推薦的。因為測試集一定要和模型本身獨立、無關,測試集不能參與模型的訓練。
引申開來,還有第二層意思,你利用70k的數據訓練完模型後,不能根據在30k測試集上的表現再回去重新調整參數,因為一旦你這樣做了,你就很可能會過擬合,你的交叉驗證也就沒有意義了。
如果使用交叉驗證,是否還需要單獨分出測試集?
相關推薦
如果使用交叉驗證,是否還需要單獨分出測試集?
驗證 spa 還需 情況下 單獨 預測 ever log style 比方說,用100k條數據,有兩個思路 1. 用這100k條數據做k-fold交叉驗證,來調模型參數 2. 先隨機劃分出70k條數據做訓練集用來根據交叉驗證調參數,調好之後再用剩下的30k條數據做測試集
【轉載】有時候匯入一個模組,還需要單獨匯入其中獨立的部分,兼覺得stack overflow 這個網站不錯
https://stackoverflow.com/questions/24738104/python-tkinter-8-5-import-messagebox The following code runs fine within IDLE, but ot
移動智能時代,為何還需要獵網平臺?
獵網平臺今年5月中旬,一款名為WNCRYPT“永恒之藍”的勒索病毒襲擊了互聯網,全世界有超過150個國家和地區的計算機系統被感染,中國區域亦並未幸免。不過堪稱欣慰的是,這款破壞力極大的病毒在中國區域爆發的第一時間,360安全衛士團隊就推出專用工具將之擋在門外,使得大多普通用戶幸免遭劫。但在此之前,鮮有人對網絡
系統集成項目經理和高級項目經理資格通過培訓可以獲得,你還需要軟考嗎?
項目管理 原系統集成項目經理和高級項目經理的資格獲得的渠道為必須取得工信部的軟考資格後,才可以由用人單位向工信部資質管理部門申請。 現在改由電子聯合會負責資質相關工作了,直接向電子聯合會註冊申請項目經理了,目前直接培訓就可以拿項目經理證了,前幾個年苦哈哈考了軟考的小夥伴們情何以堪。 其實
28. 查詢描述資訊中包括robot的電影對應的分類名稱以及電影數目,而且還需要該分類對應電影數量>=5部
題目描述 film表 欄位 說明 film_id 電影id title 電影名稱 description 電影描述資訊
資料庫SQL實踐28:查詢描述資訊中包括robot的電影對應的分類名稱以及電影數目,而且還需要該分類對應電影數量>=5部
思想: 題目要求查詢描述資訊中包括robot的電影對應的分類名稱以及電影數目,而且還需要該分類對應電影數量>=5部。 首先通過條件(select category_id from film_category group by film_category.category_id havi
機器學習之模型選擇(K折交叉驗證,超引數的選擇)
來源: https://www.cnblogs.com/jerrylead/archive/2011/03/27/1996799.html 對於解決同一個問題,如怎麼選擇模型去擬合線性迴歸中只有一個特徵時房價預測問題,如可能有不同的模型去解決,如: 1、d = 1,h(
除了技術知識之外,我還需要了解什麼知識?
有時候真的感覺,知識的貧乏,讀書能夠改變人的一生或者一個人的命運吧~多讀書總歸沒有錯。 1.比特幣相關知識 2.全球經濟為什麼崩盤,繼上次金融危機又發生了什麼事情 3.國家的經濟政策 4.為什麼虛擬加密貨幣會興起? 5.比特幣與區塊鏈之間的關係? 6.什麼是區
月薪1萬+的人,真的還需要學Excel函式這8個逆天神技能嗎?
對於各行各業,會用Excel是家常便飯,但能把Excel用的很好的也寥寥無幾,其中Excel函式公式就是一個難點,每個人見了它就像心裡燃起了一團火,無從下手,但是Excel函式真的有這麼難嗎?其實也有很多小技巧,只要你願意花時間去學,你也可以如魚得水,不妨跟我來試一試! 點
當資料分析之路遭遇困惑,你還需要提升這些能力
本文轉自知乎 作者:接地氣的陳老師 —————————————————————————————————————————————————————— “這個資料分析,怎麼就越幹越糊塗了呢?轉行以前,看著學習的書單很清晰,Excel,Sql,Python一點點學過來。可轉行後反而迷茫了,越幹越感覺自己在打雜”
IT行業程式設計師需知:不止於寫程式碼,我們還需要提升自身的軟技能
作為一所專業的IT教育培訓類企業,我們叩丁狼教育在一開始都會這樣教育我們的學員,一定要把精力集中放在學習技能上,因為對於初學者來說,這是他們必定要邁出的第一步。 而對於已經掌握了一定技術的軟體開發人員,在這裡建議你邁出第二步。大多數程式設計師追求與時俱進的時候會把時間花費在新的框架或新的程
通過5折交叉驗證,實現邏輯迴歸,決策樹,SVM,隨機森林,GBDT,Xgboost,lightGBM的評分
通過5折交叉驗證,實現邏輯迴歸,決策樹,SVM,隨機森林,GBDT,Xgboost,lightGBM的評分 匯入的包 import pandas as pd import warnings from sklearn.preprocessing import scale
有了那麼多的工業軟體,為何還需要工業網際網路?
工業軟體的現狀 現狀一:同一資料多次錄入,每個系統是一座資訊孤島 有些企業不僅僅只有以上其中一種,更誇張的所提的系統,在企業中都存在,但卻依然是填了ERP,再填APS,還要填MES。如果這些系統之間沒有整合,各自的系統所需資料需要多次錄入,增加了
面試題:C++有了malloc/free,為什麼還需要new、delete?
1、面試寶典面試題(P81):C++有了malloc/free,為什麼還需要new、delete? malloc與free是C、C++語言的標準庫函式,new/delete是C++的運算子。他們都用於申請動態記憶體和釋放記憶體。 對於非內部資料型別的物件而言,只用mall
有了互斥量,為什麼還需要條件變數?
一。互斥量和條件變數簡介 互斥量(mutex)從本質上說是一把鎖,在訪問共享資源前對互斥量進行加鎖,在訪問完成後釋放互斥量上的鎖。對互斥量進行加鎖以後,任何其他試圖再次對互斥鎖加鎖的執行緒將會阻塞直到當前執行緒釋放該互斥鎖。如果釋放互斥鎖時有多個執行緒阻
c++中有了malloc/free,為什麼還需要new/delete?
一:malloc/free是c/c++中的標準庫函式,new/delete是c++中的運算子。它們都用於申請動態記憶體和釋放記憶體。二:對於非內部資料物件(eg:類物件),只用malloc/free無法滿足動態物件的要求。這是因為物件在建立的同時需要自動執行建構函式,物件在消
【機器學習】交叉驗證,K折交叉驗證的偏差和方差分析
交叉驗證 部分參考:模型選擇中的交叉驗證方法綜述,山西大學,範永東(這是一篇碩士論文,原文內容有點囉嗦,存在一些錯誤。本文對其交叉驗證部分校對整理) 交叉驗證是一種通過估計模型的泛化誤差,從而進行模型選擇的方法。沒有任何假定前提,具有應用的普遍性,操
網校搭建完成,課程還需要設計嗎?
目前,隨著搭建網校的時間和成本大大的降低,線上教育已經成為常態。那麼,當我們網校搭建完成之後,最應該關注什麼?……沒錯!就是課程! 就線上教育平臺而言,課程內容的設計是一件至關重要的事情。與傳統教學內容不同,線上網路課程內容往往需要更加精簡、實用,更加適合電腦、移動終端的
模型調優:交叉驗證,超引數搜尋(複習17)
用模型在測試集上進行效能評估前,通常是希望儘可能利用手頭現有的資料對模型進行調優,甚至可以粗略地估計測試結果。通常,對現有資料進行取樣分割:一部分資料用於模型引數訓練,即訓練集;一部分資料用於調優模型配
既然synchronized是"萬能"的,為什麼還需要volatile呢?
在我的部落格和公眾號中,發表過很多篇關於併發程式設計的文章,之前的文章中我們介紹過了兩個在Java併發程式設計中比較重要的兩個關鍵字:synchronized和volatile 我們簡單回顧一下相關內容: 1、Java語言為了解決併發程式設計中存在的原子性、可見性和有序性問題,提供了一系列和併發處理相關的關鍵