二者的樣本的類別比例相似不應相差太大。例如從1000個數據裡，分層取樣獲得70%樣本的訓練集S和30%樣本的測試集T，若D包含500個正例，500個反例，則分層取樣得到的S應包含350個正例，350個反例，T應包含150個正例，150個反例；若S、T中樣本比例差別很大，則最終擬合的誤差將會變大。
一般，在用留出法劃分集合的時候，會通過若干次隨機劃分、重複實驗評估後取平均值作為留出法的評估結果，減少誤差。
訓練集和測試集應該按照什麼比例來劃分呢？這個問題沒有完美的解決方案，常見的做法是將大約2/3~4/5的樣本用於訓練

交叉驗證法

”交叉驗證法”先將資料集D劃分為k個大小相似的互斥子集，即D=D1∪D2∪...∪Dk,Di∩Dj=∅(i≠j)D=D1∪D2∪...∪Dk,Di∩Dj=∅(i≠j)。每個子集都儘可能保持資料分佈的一致性，即從D中通過分層取樣得到。然後，每次用k-1個子集的並集作為訓練集，餘下的子集作為測試集；這樣就可以獲得k組訓練/測試集，從而可以進行k次訓練和測試，最終返回的是k個測試結果的均值。

顯然，交叉驗證法評估結果的穩定性和保真性在很大程度上取決於k的取值，為了強調這一點，通常把交叉驗證法稱為”k折交叉驗證”（k-fold cross validation），k通常取10—10折交叉驗證。
交叉驗證的好處就是從有限的資料中儘可能挖掘多的資訊，從各種角度去學習我們現有的有限的資料，避免出現區域性的極值。在這個過程中無論是訓練樣本還是測試樣本都得到了儘可能多的學習。(By 知乎張戎交叉驗證簡介)
交叉驗證法的缺點就是，當資料集比較大時，訓練模型的開銷較大。

自助法（BootStrapping）

我們當然想用手頭所有的資料來訓練模型了，這樣才能更好的擬合，留出法和交叉驗證法都將保留了部分資料用於測試，因此實際評估的模型所使用的訓練集比D小，這必然會引入一些因訓練樣本規模不同而導致的估計偏差。

自助法是一個比較好的解決方案。給定m個樣本的資料集D，我們對它進行取樣產生資料集D′D′，每次隨機從D中挑選一個樣本，將其拷貝到D′D′，這個過程執行m次後，我們就得到了包含m個樣本的資料集D′D′。顯然，D中有部分樣本會在D′D′中多次出現。做個簡單的估計，樣本在m次取樣中始終不被採到的概率是(1−1m)m(1−1m)m，取極限為

limx→∞(1−1m)m=1e≈0.368limx→∞(1−1m)m=1e≈0.368
即通過自助取樣，初始資料集D中約有36.8%的樣本未出現在取樣集D′D′裡。於是，實際評估的模型與期望評估的模型都是使用m個樣本，而我們仍有資料總量約1/3的沒在訓練集出現過的樣本用於測試。

自助法在資料集較小、難以有效劃分訓練/測試集時比較有用。然而自助法產生的測試集改變了初始資料集的分佈，這會引入誤差，因此在資料集比較大時，採用留出法和交叉驗證法較好。

機器學習之劃分資料集

轉載自：

資料擬閤中的訓練集，測試集，驗證集

實際專案中的資料集劃分

訓練集和測試集的劃分方法

留出法

交叉驗證法

自助法（BootStrapping）

機器學習之劃分資料集

大資料學習之資源乾貨：機器學習高質量資料集大集合

【七】機器學習之路——訓練集、測試集及如何劃分

機器學習之大數據集

11月26日雲棲精選夜讀 | 機器學習高質量資料集大合輯（附連結）

機器學習高質量資料集大合輯（附連結）

機器學習 — 再認識資料集

機器學習(6) MovieLens資料集

吳恩達-機器學習(10)-大資料集機器學習

機器學習與Tensorflow（3）—— 機器學習及MNIST資料集分類優化

深度學習之TFRecord資料集讀、寫的製作、讀取及驗證具體操作過程

機器學習：sklearn資料集與機器學習組成

機器學習中訓練資料集，交叉驗證資料集，測試資料集的作用

17個最受歡迎的機器學習應用標準資料集

機器學習sklearn iris資料集官方demo

（參評）機器學習筆記——鳶尾花資料集（KNN、決策樹、樸素貝葉斯分析）

SAS學習之建立資料集

機器學習13大規模資料集

機器學習之劃分聚類及程式碼示例

機器學習實戰決策樹（一）——資訊增益與劃分資料集

機器學習之劃分資料集

轉載自：

資料擬閤中的訓練集，測試集，驗證集

實際專案中的資料集劃分

訓練集和測試集的劃分方法

留出法

交叉驗證法

自助法（BootStrapping）

相關推薦