正則化——“偏差（bias）”與“方差（variance）”

阿新 • • 發佈：2018-10-31

正則化後的線性迴歸模型

模型

\[{h_\theta }\left( x \right) = {\theta _0} + {\theta _1}x + {\theta _2}{x^2} + {\theta _3}{x^3} + {\theta _4}{x^4}\]

\[J\left( \theta \right) = \frac{1}{{2m}}\left[ {\sum\limits_{i = 1}^m {{{\left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right)}^2}} + \lambda \sum\limits_{j = 1}^n {\theta _j^2} } \right]\]

當正則化引數λ很大時

\[{h_\theta }\left( x \right) \approx {\theta _0}\]

這時處於“高偏差（High bias）”（underfit）的情況

當正則化引數很小（λ=0）時

\[{h_\theta }\left( x \right) = {\theta _0} + {\theta _1}x + {\theta _2}{x^2} + {\theta _3}{x^3} + {\theta _4}{x^4}\]

這時處於“高方差（High variance）”（overfit）

當正則化引數λ適當時

模型處於“Just right”狀態

如何選擇正確的λ呢？

除了以下兩個公式

\[{h_\theta }\left( x \right) = {\theta _0} + {\theta _1}x + {\theta _2}{x^2} + {\theta _3}{x^3} + {\theta _4}{x^4}\]

再定義

\[\begin{array}{l}
{J_{train}}\left( \theta \right) = \frac{1}{{2{m_{train}}}}\sum\limits_{i = 1}^{{m_{train}}} {{{\left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right)}^2}} \\
{J_{CV}}\left( \theta \right) = \frac{1}{{2{m_{CV}}}}\sum\limits_{i = 1}^{{m_{CV}}} {{{\left( {{h_\theta }\left( {x_{CV}^{\left( i \right)}} \right) - y_{CV}^{\left( i \right)}} \right)}^2}} \\
{J_{test}}\left( \theta \right) = \frac{1}{{2{m_{test}}}}\sum\limits_{i = 1}^{{m_{test}}} {{{\left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right)}^2}}
\end{array}\]

分別表示“訓練誤差”、‘“交叉驗證誤差”和“測試誤差”

選擇λ

嘗試如下λ

λ=0----------->minJ(θ)----->Θ⁽¹⁾------>J_CV(Θ⁽¹⁾)
λ=0.01------->minJ(θ)----->Θ⁽²⁾------>J_CV(Θ⁽²⁾)
λ=0.02------->minJ(θ)----->Θ⁽³⁾------>J_CV(Θ⁽³⁾)
λ=0.04------->minJ(θ)----->Θ⁽⁴⁾------>J_CV(Θ⁽⁴⁾)
.
.
.
λ=10--------->minJ(θ)----->Θ⁽¹²⁾------>J_CV(Θ⁽¹²⁾)

運用不同的λ去最小化“代價函式”得到不同的Θ;

不同的Θ帶入h(x)中得到不同的模型，然後用“交叉驗證集”驗證；

取“交叉驗證誤差”最小的那個模型；

將最終得到的模型運用於測試集，測試模型的表現。

下圖為不同λ下“訓練誤差”和“交叉驗證誤差”的變化

可以得到

當λ很小時，模型處於“高方差”狀態，“訓練誤差”很小，“交叉驗證誤差”較大
當λ很大時，模型處於“高偏差”狀態，“訓練誤差”和“交叉驗證誤差”都很大

正則化——“偏差（bias）”與“方差（variance）”

正則化——“偏差（bias）”與“方差（variance）”

正則化最小二乘與條件數（cond）

偏差（Bias）與方差（Variance）

偏差（bias）和方差（variance）——KNN的K值、RF樹的數量對bias和variance的影響

機器學習5 正則化的線性迴歸（Regularized Linear Regression）和偏差對方差（Bias v.s. Variance）

斯坦福大學公開課機器學習： advice for applying machine learning | regularization and bais/variance（機器學習中方差和偏差如何相互影響、以及和算法的正則化之間的相互關系）

ng機器學習視頻筆記（五） ——過擬合與正則化

SVM支援向量機系列理論（七）線性支援向量機與L2正則化 Platt模型

範數正則化L0、L1、L2-嶺迴歸&Lasso迴歸（稀疏與特徵工程）

10、Caffe學習與應用 -訓練（卷積層引數、池化層引數、學習率、正則化）

泛化能力、訓練集、測試集、K折交叉驗證、假設空間、欠擬合與過擬合、正則化（L1正則化、L2正則化）、超引數

機器學習----支援向量機（軟間隔與正則化）

神經網路九：Regularization（正則化）與Dropout

資料預處理中歸一化（Normalization）與損失函式中正則化（Regularization）解惑

[轉] [機器學習] 常用數據標準化（正則化）的方法

在一串字符串中找到與正則表達式匹配的字符串？（例如：export_20170717_out.log 找到20170717）

Regularized least-squares classification（正則化最小二乘法分類器）取代SVM

資深程序員帶你玩轉深度學習中的正則化技術（附Python代碼）！

吳恩達《機器學習》課程總結（7）正則化

吳恩達機器學習（第八章）---正則化

正則化——“偏差（bias）”與“方差（variance）”

相關推薦