1. 程式人生 > >第七章 經驗誤差,過擬合與評估方法(留出法,交叉驗證法,自助法)

第七章 經驗誤差,過擬合與評估方法(留出法,交叉驗證法,自助法)

過擬合:

完美實際希望的,在新樣本上表現的很好的學習器。為了達到這個目的,應該從訓練樣本中學習出適用於所有潛在樣本的普遍規律,然而,學習器把樣本學的太好,會把訓練樣本自身的一些特點當前潛在樣本會有的特質,這樣會導致泛化效能下降。與之相反的是欠擬合,對訓練樣本一般性質尚未學好

評估方法

  1. 留出法:直接將資料集D劃分為兩個互斥的集合,其中一個集合作為訓練集S,另一個作為測試集T。即D=SUT,S交T=空。在S上訓練出模型後,用T來評估其測試誤差,作為對泛化誤差的估計。需要注意的是,訓練測試集的劃分要儘可能保持資料分佈的一致性,避免因資料劃分過程引入額外的偏差而對最終結果產生影響
  2. 交叉驗證法:平均分成10份(可以是任意份數),每次都取9分訓練,一份測試,共計10次
    特殊的交叉驗證,留一法:每次只有一個樣本用於驗證,適用於資料集非常小的情況,當資料量過大時,留一法的複雜度比較高
    3.自助法:給定m個樣本的資料集D,我們對他進行取樣的資料集D’,每次從D中隨機挑選一個樣本,將其放入D’,然後再放回資料集D,使得樣本在下次取樣時仍有可能被採到,這個過程重複執行m次後,我們就得到包含m個數據集的樣本D’。稱為自助取樣,通過自助取樣,初始資料集D中約有36.8%的樣本未出現在樣本資料集D’中,於是,我們可以用D’用作訓練集,D\D’用作測試集(36.8%的樣本),實際評估的模型與期望評估的模型都使用m個訓練樣本,而我們仍有資料總量1/3的,沒在訓練集中出現的樣本用於測試,這樣的測試稱‘包外估計’
    自助法適用場景:資料集較小,難以有效劃分訓練/測試集。但自助法改變了初始資料的分佈,這會引入估計偏差。因此,在資料量足夠時,留出法和交叉驗證法更有用一些