【七】機器學習之路——訓練集、測試集及如何劃分

阿新 • • 發佈：2019-01-11

上一個部落格講了一個簡單的例子，根據手頭的房子大小和房價的資料來擬合房子大小和房價的關係曲線，當然這是一個非常簡單的一元一次方程，y=ax+b。但是最後咱們還少了一樣東西，不知道細心的同學有沒有發現，那就是咱們擬合曲線的準確度到底有多少呢？怎麼來檢測咱們擬合曲線到底有多完美呢？用什麼來驗證咱們的準確度呢？

帶著一肚子疑問，咱們就先來介紹一下資料擬閤中的訓練集，測試集，驗證集。字比較多，但都很容易懂，耐心看下去會收穫不少哦。

訓練集（Training Set）：幫助我們訓練模型，簡單的說就是通過訓練集的資料讓我們確定擬合曲線的引數。

驗證集（Validation Set）：用來做模型選擇（model selection），即做模型的最終優化及確定的，用來輔助我們的模型的構建，可選；

測試集（Test Set）：

為了測試已經訓練好的模型的精確度。當然，test set這並不能保證模型的正確性，他只是說相似的資料用此模型會得出相似的結果。因為我們在訓練模型的時候，引數全是根據現有訓練集裡的資料進行修正、擬合，有可能會出現過擬合的情況，即這個引數僅對訓練集裡的資料擬合比較準確，這個時候再有一個數據需要利用模型預測結果，準確率可能就會很差。

但實際應用中，一般只將資料集分成兩類，即訓練集Training set 和測試集Test set，大多數文章並不涉及驗證集Validation set。如果後面碰到有這樣的問題，我會再跟大家講解。

細心的小夥伴可能會發現，我們上個房價預測的例子裡，將所有的資料用做訓練集，而並沒有測試集來測試模型的準確度，因為資料是我編的哈哈，太少了，還沒涉及到測試模型的問題。彆著急，一步一步來，我先介紹一下sklearn裡是怎麼將手頭已有的資料分為訓練集和測試集的。

訓練集和測試集的劃分方法

以下講解摘自周志華老師的《機器學習》一書。同時大家可以先參考饃饃momo博主的如何劃分訓練集和測試集的介紹，講的比較簡單、精煉。

- 留出法（Hold-out）

留出法的意思是直接將資料集D劃分為兩個互斥的集合，其中一個集合作為訓練集S，另一個集合作為測試集T，即D=S∪T，S∩T=∅。在S上訓練出模型後，用T來評估其誤差。

需要注意的是，訓練/測試集的劃分要儘可能保持資料分佈的一致性，避免因資料劃分過程引入的額外的偏差而對最終結果產生影響。例如在分類任務中，至少要保持樣本的類別比例相似。從”取樣”的角度來看待資料集的劃分過程，則保留類別比例的取樣方式通常稱為“分層取樣”。例如從1000個數據裡，分層取樣獲得70%樣本的訓練集S和30%樣本的測試集T，若D包含500個正例，500個反例，則分層取樣得到的S應包含350個正例，350個反例，T應包含150個正例，150個反例；若S、T中樣本比例差別很大，則最終擬合的誤差將會變大。

一般，在用留出法劃分集合的時候，會通過若干次隨機劃分、重複實驗評估後取平均值作為留出法的評估結果，減少誤差。

留出法還有一個問題就是，到底我們訓練集和測試集應該按照什麼比例來劃分呢？70% ？60% ? 50% ？？？，如果我們訓練集的比例比較大，可能會導致訓練出的模型更接近於用D訓練出的模型，同時T較小，評價結果又不夠準確；若T的比例比較大，則有可能導致評估的模型與之前有較大的差別，從而降低了評估的保真性。這個問題沒有完美的解決方案，常見的做法是將大約2/3~4/5的樣本用於訓練。

- 交叉驗證法（Cross Validation）

”交叉驗證法”先將資料集D劃分為k個大小相似的互斥子集，即D=D1∪D2∪...∪Dk,Di∩Dj=∅(i≠j)。每個子集都儘可能保持資料分佈的一致性，即從D中通過分層取樣得到。然後，每次用k-1個子集的並集作為訓練集，餘下的子集作為測試集；這樣就可以獲得k組訓練/測試集，從而可以進行k次訓練和測試，最終返回的是k個測試結果的均值。

顯然，交叉驗證法評估結果的穩定性和保真性在很大程度上取決於k的取值，為了強調這一點，通常把交叉驗證法稱為”k折交叉驗證”（k-fold cross validation），k通常取10—10折交叉驗證。

交叉驗證的好處就是從有限的資料中儘可能挖掘多的資訊，從各種角度去學習我們現有的有限的資料，避免出現區域性的極值。在這個過程中無論是訓練樣本還是測試樣本都得到了儘可能多的學習。(By 知乎張戎交叉驗證簡介)
交叉驗證法的缺點就是，當資料集比較大時，訓練模型的開銷較大。

- 自助法（BootStrapping）

我們當然想用手頭所有的資料來訓練模型了，這樣才能更好的擬合，留出法和交叉驗證法都將保留了部分資料用於測試，因此實際評估的模型所使用的訓練集比D小，這必然會引入一些因訓練樣本規模不同而導致的估計偏差。

自助法是一個比較好的解決方案。給定m個樣本的資料集D，我們對它進行取樣產生資料集D′，每次隨機從D中挑選一個樣本，將其拷貝到D′，這個過程執行m次後，我們就得到了包含m個樣本的資料集D′。顯然，D中有部分樣本會在D′中多次出現。做個簡單的估計，樣本在m次取樣中始終不被採到的概率是(1−1m)m，取極限為

limx→∞(1−1m)m=1e≈0.368
即通過自助取樣，初始資料集D中約有36.8%的樣本未出現在取樣集D′裡。於是，實際評估的模型與期望評估的模型都是使用m個樣本，而我們仍有資料總量約1/3的沒在訓練集出現過的樣本用於測試。

自助法在資料集較小、難以有效劃分訓練/測試集時比較有用。然而自助法產生的測試集改變了初始資料集的分佈，這會引入誤差，因此在資料集比較大時，採用留出法和交叉驗證法較好。

【七】機器學習之路——訓練集、測試集及如何劃分

【七】機器學習之路——訓練集、測試集及如何劃分

【十】機器學習之路——logistic迴歸python實現

【八】機器學習之路——梯度下降法python實現

【十九】機器學習之路——樸素貝葉斯分類

【java】java學習之路-01-Linux基礎（一）

【ML2】機器學習之線性迴歸

【ML1】機器學習之EM演算法（含演算法詳細推導過程）

【2】機器學習之兄弟連：K近鄰和K-means

【8】機器學習之屠龍寶劍：GBDT

【轉載】Flume學習之路（一）Flume的基礎介紹

Linux學習之路--http-2基礎設置及訪問限制【15】---20180108

Linux學習之路-Nginx（2）安裝及配置文件篇【23】---20180210

【機器學習】--機器學習之樸素貝葉斯從初始到應用

【linux--菜鳥學習之路】fread和fwrite

【機器學習】機器學習之特徵選擇

黑馬程式設計師【】java學習之路——列舉小結

黑馬程式設計師【】java學習之路——代理小結

黑馬程式設計師【】java學習之路——小小的學習心得

黑馬程式設計師【】java學習之路——網路程式設計 UDP 鍵盤錄入傳輸

黑馬程式設計師【】java學習之路——GUI開始簡析三

【七】機器學習之路——訓練集、測試集及如何劃分

相關推薦