統計學習方法筆記（三）統計學習方法簡介

阿新 • • 發佈：2019-01-31

正則化與交叉驗證

前文所述的模型選擇只能大體選擇出一類較好的模型，即利用訓練資料集學習模型，沒有考慮到測試誤差，而正則化與交叉驗證的提出，則加入了測試誤差的考量，因此，這兩種方法用來選擇具體模型。

正則化

正則化是結構風險最小化策略的實現，其是在經驗風險加上一個正則項或罰項。一般來說，正則化項是模型複雜度的單調遞增函式。正則化一般具有以下形式：
$min_{f \in F} \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i})) + λ J (f)$
正則化項可以取不同形式，在迴歸問題中，損失函式是平方損失，正則項是引數向量的 $L_{2}$ 範數。正則化的目的是選取經驗風險與複雜度同時較小的模型。

交叉驗證

交叉驗證的原理：當樣本充足時，可以將資料劃分為訓練集、驗證集、測試集，使用訓練集來訓練模型，驗證集來選擇模型，測試集用來評估模型，但在實際中，資料一般並不充足，這時可以考慮重複使用資料，即將資料切分組成訓練集與測試集，在此基礎上反覆訓練、測試、模型選擇
1. 簡單交叉驗證：將資料隨機分為兩部分，一部分是訓練集，一部分是測試集，使用訓練集訓練模型，測試集評價測試誤差，選出最優模型。
2. S折交叉驗證：隨機將資料分為S個大小相同的子集，然後利用S-1個子集的資料訓練模型，利用餘下的子集測試模型；將這一過程對S種可能重複進行，選出平均測試誤差最小的模型
3. 留一交叉驗證：是S折交叉驗證的特殊情況，S=N，N是給定資料的容量，適用於缺乏資料的情況下。

泛化能力

泛化誤差：泛化能力，指模型對未知資料的預測能力；現實中，通常使用測試誤差來評價學習方法的泛化能力，現在從理論上分析泛化能力，如果學到的模型是 $\hat{f}$ ，用這個模型對未知資料預測的誤差即為泛化誤差：
$R_{\exp} (\hat{f}) = E_{p} [L (Y, \hat{f} (X))] = \int_{X \times Y} L (y, \hat{f} (x)) P (x, y) d x d y$
事實上，泛化誤差就是所學習到模型的期望風險。
泛化誤差上界：比較兩種學習方法的優劣通常是比較他們的泛化誤差上界；泛化誤差上界通常具有以下性質:它是樣本容量的函式，當容量增加時，泛化上界趨於0；它是假設空間的函式，空間容量越大，模型越難學，泛化誤差上界越大。
定義：對二類分類問題，當假設空間是有限個函式的集合時，對任意一個函式 $f \in F$ ，至少以概率 $1 - δ$ ，以下不等式成立：
$R (f) \leq \hat{R} (f) + ε (d, N, δ)$
其中， $ε (d, N, δ) = \sqrt{\frac{1}{2 N} (\log d + \log \frac{1}{δ})}$
不等式左邊是泛化誤差，右端即為泛化誤差上界， $d$ 是函式個數。在泛化誤差上界中，第一項是訓練誤差，第二項是N的單調遞減函式，同時也是假設空間的函式

統計學習方法筆記（三）統計學習方法簡介

正則化與交叉驗證

正則化

交叉驗證

泛化能力

統計學習方法筆記（三）統計學習方法簡介

統計學習方法筆記（三）K近鄰演算法

統計學習方法筆記（一）統計學習方法簡介

機器學習讀書筆記（三）決策樹基礎篇之從相親說起

PHP、MySQL和JavaScript學習手冊筆記（三）

學習springboot筆記（三）配置springmvc

學習Mongodb筆記（三）——文件更新中高效的修改器

David Silver強化學習課程筆記（三）

tensorflow深度學習實戰筆記（三）：使用tensorflow lite把訓練好的模型移植到手機端，編譯成apk檔案

window service 學習之路（三）【學習筆記】 -- 啟動服務出錯，提示1053 ，刪掉服務

機器學習簡要筆記（二）——常見學習任務及算法

AI聖經-深度學習-讀書筆記（七）-深度學習中的正則化

Python 學習成長記（三）---- Python 基本用法簡介

《統計學習方法》學習筆記（三）——K近鄰法

李航—統計學習方法筆記（一）

統計學習方法筆記（一）：K近鄰法的實現：kd樹

Hadoop學習筆記—20.網站日誌分析專案案例（三）統計分析

R統計筆記（三）：分組統計的幾種方法

統計學習筆記（1）——統計學習方法概論

李航-統計學習方法筆記（一）：統計學習方法概論

統計學習方法筆記（三）統計學習方法簡介

正則化與交叉驗證

正則化

交叉驗證

泛化能力

相關推薦