1. 程式人生 > >《統計學習方法》第一章:統計學習方法概論4

《統計學習方法》第一章:統計學習方法概論4

4、模型評估與模型選擇

4.1、訓練誤差和測試誤差

測試誤差小的方法具有更好的預測能力,是更有效的方法。

訓練誤差:

Remp(f)=1Ni=1NL(yi,f(xi))
測試誤差:
etest(f)=1Ni=1NL(yi,f(xi))

當損失函式是0-1損失的時候,測試誤差變成就變成測試資料集上的誤差率:

etest(f)=1Ni=1NI(yif(xi))
而測試集上的準確率是:
etest(f)=1Ni=1NI(yi=f(xi))

顯然:
rtest+etest=1

4.2、過擬合和模型的選擇

當假設空間中含有不同複雜度的模型的時候,就要面對模型的選擇問題。一味的追求訓練資料集的預測能力,所選模型的複雜度往往會比真模型要高,這種現象被稱為過擬合

訓練誤差和測試誤差與模型複雜度的關係:

5、正則化和交叉驗證

5.1、正則化

正則化是模型選擇的經典方法,是結構風險最小化策略的實現,經驗風險的基礎上加一個正則項。正則項一般是模型複雜度的單調遞增函式。
正則化的一般形式:

minfϵΓ1Ni=1NL(yi,f(xi))+λJ(f)
如下面損失函式是平方損失,而正則項是L2範數:
L(w)=1Ni=1N(f(xi;w)yi)2+λ/2w2
損失函式是平方損失而正則項是L1範數: