1. 程式人生 > >模型選擇,欠擬合,過擬合

模型選擇,欠擬合,過擬合

  • 訓練誤差:在訓練集上的表現
  • 泛化誤差:在任意一個數據樣本上表現的誤差
  • 計算誤差:損失函式
  • 在機器學習中,假設每個樣本都是獨立同分布與整體的,於是它訓練誤差期望 = 泛化誤差
  • 一般情況下:由訓練資料集學到的訓練引數 使得 模型在訓練資料集上的表現優於或等於 測試資料集上的表現
  • 模型選擇:可以選擇完全不同的網路模型,也可以是不同的超引數(例如:多層感知機的隱藏層個數等等)
  • 驗證資料集:在實際應用中,驗證資料集與測試資料集界限模糊
  • K折交叉驗證:訓練資料太少了,於是將所有樣本分為k份,做k次模型訓練,每次選擇不同的一份做測試集,其他做訓練集,loss取平均
  • 欠擬合:模型無法得到較低的訓練誤差
  • 過擬合:訓練誤差遠低於它在測試資料上的誤差
  • 欠擬合,過擬合的原因很多,其中最重要的是:模型複雜度,訓練集大小(當樣本數過少,過擬合更容易發生)