4、模型評估與模型選擇

4.1、訓練誤差和測試誤差

測試誤差小的方法具有更好的預測能力，是更有效的方法。

訓練誤差：

R_{e m p} (f^{'}) = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f^{'} (x_{i}))

測試誤差：

e_{t e s t} (f^{'}) = \frac{1}{N^{'}} \sum_{i = 1}^{N^{'}} L (y_{i}, f^{'} (x_{i}))

當損失函式是0-1損失的時候，測試誤差變成就變成測試資料集上的誤差率：

e_{t e s t} (f^{'}) = \frac{1}{N^{'}} \sum_{i = 1}^{N^{'}} I (y_{i} \neq f^{'} (x_{i}))

而測試集上的準確率是：

e_{t e s t} (f^{'}) = \frac{1}{N^{'}} \sum_{i = 1}^{N^{'}} I (y_{i} = f^{'} (x_{i}))

顯然：

r_{t e s t} + e_{t e s t} = 1

當假設空間中含有不同複雜度的模型的時候，就要面對模型的選擇問題。一味的追求訓練資料集的預測能力，所選模型的複雜度往往會比真模型要高，這種現象被稱為過擬合。

訓練誤差和測試誤差與模型複雜度的關係：

正則化是模型選擇的經典方法，是結構風險最小化策略的實現，經驗風險的基礎上加一個正則項。正則項一般是模型複雜度的單調遞增函式。
正則化的一般形式：

m i n_{f ϵ Γ} \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i})) + λ J (f)

如下面損失函式是平方損失，而正則項是

L_{2}

範數：

L (w) = \frac{1}{N} \sum_{i = 1}^{N} (f (x_{i}; w) - y_{i})^{2} + λ / 2 {‖ w ‖}^{2}

損失函式是平方損失而正則項是

L_{1}

範數：