為什麼正則化（Regularization）可以減少過擬合風險

在解決實際問題的過程中，我們會傾向於用複雜的模型來擬合複雜的資料，但是使用複雜模型會產生過擬合的風險，而正則化就是常用的減少過擬合風險的工具之一。

過擬合

過擬合是指模型在訓練集上誤差很小，但是在測試集上表現很差(即泛化能力差)，過擬合的原因一般是由於資料中存在噪聲或者用了過於複雜的模型擬合數據。如下圖所示，下圖中的訓練樣本是三次多項式加了點噪聲得到的，然後用不同的多次項擬合，M代表最高次項次數，下面四個圖中M=0和M=1由於使用的過於簡單的模型，沒有能夠很好地擬合訓練資料，屬於欠擬合。但是在M=3和M=4兩個模型中，M=3有一點點的訓練誤差，但是在測試集上會取得不錯的效果；而M=9則完全沒有訓練誤差，但是訓練出來的模型大大偏離了他的實際模型，這就是所謂的過擬合。
這裡寫圖片描述

奧卡姆剃刀原理說，在所有能解釋資料的模型中，越簡單的越靠譜。但是為了擬合複雜的資料，不得不採用更復雜的模型，那麼有沒有一種辦法，能以一種相對比較簡單的模型來擬合複雜資料，答案是有，這就是正則化方法。

正則化假設

拿多項式迴歸舉例，在多項式迴歸中，我們的目標是最優化的最小二乘誤差（least square error ），但是通常在優化目標後面會看到一個w的平方項，或者w的絕對值的表示式，這個就是正則化項。其中，w的二次方迴歸叫做ridge regression，w的絕對值項叫做lasso regression。

RidgeRegression:Ein=∑i=1N(wTxi−yi)2+λwTwRidgeRegression:Ein=∑i=1N(wTxi−yi)2+λwTw

LassoRegression:Ein=∑i=1N(wTxi−yi)2+λ∑|wi|LassoRegression:Ein=∑i=1N(wTxi−yi)2+λ∑|wi|
這兩個多項式目的都是用於減少過擬合的風險，但是也有細微差別。Ridge Regression得到的w長度比較小，而Lasso Regression得到的w是稀疏的，下面來看下對這兩種方法為什麼可以使得模型變簡單並且減小過擬合的風險的分析。

正則化原理及推導

先來看下面兩個圖，第一個使用了最高十次項的多項式擬合，第一個圖中可以看出紅色的線很好的擬合了樣本中的所有點，但是並不是理想的擬合，似乎泛化能力很弱。第二個圖在第一個圖的基礎上加了L2正則項（Ridge Regression），得到了一個相對理想的模型。
這裡寫圖片描述

這裡先寫下十次項多項式和target的二次項多項式的hypothesis

H10=w0+w1x+w2x2+...+w10x10H10=w0+w1x+w2x2+...+w10x10
H2=w0+w1x+w2x2H2=w0+w1x+w2x2
從上面兩個式子中可以看出，H_10的假設集合是包含H_2的假設集合的，因為，如果在H_10中把w_3…w_10都設為0，得到的就是H_2的集合，所以可以理解為二次多項式就是十次多項式對w加上一些限制得到的。也就是說，我們的目標是從十次多項式中，找出w_3到w_10都為0的假設，就可以得到我們的目標二次多項式。如果條件放寬鬆點，把w的長度規定在C以內，即wTw<CwTw<C，則會有更大的可能找出w_3..w_10都為0的假設。這應該就是這個正則化名詞的由來吧，就是說把w限制在一定的範圍之內。

我們求解的問題就是

L2Regularization:mwinEin;s.t.wTw<CL2Regularization:mwinEin;s.t.wTw<C
L1Regularization:mwinEin;s.t.∑|wi|<CL1Regularization:mwinEin;s.t.∑|wi|<C
把上面兩個帶約束的假設化成圖就是如下圖所示（假設w是二維的），L2就是在一個w空間中加了一個球星區域的約束，所有在這個球形區域內找最優解，而L1就是在這個菱形區域找最優解。
這裡寫圖片描述

如果沒有約束，對於凸函式，我們常用梯度下降法，每次往梯度方向走一小步，直到不能走為止，現在在這裡加上了限制，先來看L2正則，想象一個球往山谷裡滾下去，現在只能滾在這個圓形區域內，如果谷底在這個圓形區域內，那麼沒什麼問題。如果谷底在圓形區域外，則小球最後肯定會落在圓形邊界上，而且小球最後停著的點的梯度方向，和w的方向肯定是平行的（如果不平行，肯定會有一個垂直w的分量，把小球往另一側拉，如下圖的綠色箭頭）。
這裡寫圖片描述
由於梯度和w平行，那麼最後優化的結果是

∇E

相關推薦

為什麼正則化（Regularization）可以減少過擬合風險

在解決實際問題的過程中，我們會傾向於用複雜的模型來擬合複雜的資料，但是使用複雜模型會產生過擬合的風險，而正則化就是常用的減少過擬合風險的工具之一。過擬合過擬合是指模型在訓練集上誤差很小，但是在測試集上表現很差(即泛化能力差)，過擬合的原因一般是由於資料中存在噪聲或者用了過於複

機器學習中的正則化（Regularization）

參考知乎回答：https://www.zhihu.com/question/20924039 以及部落格 https://blog.csdn.net/jinping_shi/article/details/52433975 定義&用途經常能在L

機器學習筆記4：正則化（Regularization）

機器學習筆記4：正則化（Regularization） Andrew Ng機器學習課程學習筆記4 過擬合與欠擬合　　線性擬合時，有兩種擬合效果不好的情況，分別是過擬合與欠擬合。　　過擬合(overfitting)，也叫高方差(variance)。主要是擬合曲線過於彎曲，雖然

機器學習筆記——正則化（regularization）

正則化過擬合我們在利用資料來進行曲線擬合的時候會出現三種情況，欠擬合（underfitting），合適（just right），過擬合（overfitting）。欠擬合的情況一般是由於變數太少，而過擬合的原因一般是變數太多下面我們主要考慮過擬合的問題。過擬合的解決方法一

機器學習之正則化（Regularization）

1. The Problem of Overfitting 1 還是來看預測房價的這個例子，我們先對該資料做線性迴歸，也就是左邊第一張圖。如果這麼做，我們可以獲得擬合數據的這樣一條直線，但是，實際上這並不是一個很好的模型。我們看看這些資料，很明顯，隨著房子面積增大，住房價格的變化趨於穩定或者說越往右越平緩

正則化（regularization）

一、過擬合（overfitting）問題上圖是房價（Price）與房子面積（Size）的關係的例項。我們的目標是利用多項式迴歸來根據房子面積來預測房價。左邊的模型僅用了一次項，此時模型引數有倆θ0、θ1，是一條直線；直觀的觀察樣本點（紅色×）的趨勢，我們發現該模型並不

資料預處理中歸一化（Normalization）與損失函式中正則化（Regularization）解惑

背景：資料探勘/機器學習中的術語較多，而且我的知識有限。之前一直疑惑正則這個概念。所以寫了篇博文梳理下摘要：　　1.正則化（Regularization）　　　　1.1 正則化的目的　　　　　1.2 結構風險最小化（SRM）理論　　　　1.3 L1範數

L2正則化項為什麼能防止過擬合學習筆記

https://www.cnblogs.com/alexanderkun/p/6922428.html L2 regularization（權重衰減） L2正則化就是在代價函式後面再加上一個正則化項： C0代表原始的代價函式，後面那一項就是L2正則化項，它是這樣來的：所有引數w的平

系統學習機器學習之正則化（二）

監督機器學習問題無非就是“minimizeyour error while regularizing your parameters”，也就是在規則化引數的同時最小化誤差。最小化誤差是為了讓我們的模型擬合我們的訓練資料，而規則化引數是防止我們的模型過分擬合我們的訓練資料。多麼簡約的哲學啊！因為引數太多，會導致

機器學習基礎（三十） —— 線性迴歸、正則化（regularized）線性迴歸、區域性加權線性迴歸（LWLR）

1. 線性迴歸線性迴歸根據最小二乘法直接給出權值向量的解析解（closed-form solution）： w=(XTX)−1XTy 線性迴歸的一個問題就是有可能出現欠擬合現象，因為它求的是具有最小均方誤差（LSE，Least Square Erro

神經網路模型無法正常工作時我們應該做什麼（系列）——正則化（Regularlization）

前言當你進入深度學習領域，準備好深度神經網路，開始進行訓練時，遇到這樣一個大部分新手都會遇到的問題：你的神經網路沒法正常工作，而你不知道該如何去修正它。你去問你的老闆或者導師，他們也不知道該如何處理，因為在深度神經網路面前，他們和你一樣也是新

SVM支援向量機系列理論（六） SVM過擬合的原因和SVM模型選擇

6.1 SVM 過擬合的原因實際我們應用的SVM模型都是核函式+軟間隔的支援向量機，那麼，有以下原因導致SVM過擬合：選擇的核函式過於powerful，比如多項式核中的Q設定的次數過高要求的間隔過大，即在軟間隔支援向量機中C的引數過大時，表示比較重視間隔，堅持要資

（五）用正則化(Regularization)來解決過擬合

1 過擬合過擬合就是訓練模型的過程中，模型過度擬合訓練資料，而不能很好的泛化到測試資料集上。出現over-fitting的原因是多方面的： 1）訓練資料過少，資料量與資料噪聲是成反比的，少量資料導致噪聲很大 2 ）特徵數目過多導致模型過於複雜，如下面的圖所示：看上圖中的多

吳恩達機器學習（五）正則化（解決過擬合問題）

目錄 0. 前言學習完吳恩達老師機器學習課程的正則化，簡單的做個筆記。文中部分描述屬於個人消化後的理解，僅供參考。 0. 前言在分類或者回歸時，通常存在兩個問題，“過擬合”（overfitting）和“欠擬合”（underfitting）. 過擬

泛化能力、訓練集、測試集、K折交叉驗證、假設空間、欠擬合與過擬合、正則化（L1正則化、L2正則化）、超引數

泛化能力（generalization）：機器學習模型。在先前未觀測到的輸入資料上表現良好的能力叫做泛化能力（generalization）。訓練集（training set）與訓練錯誤（training error）：訓練機器學習模型使用的資料集稱為訓練集（tr

【TensorFlow】正則化（過擬合問題）

轉載自：https://www.cnblogs.com/linyuanzhou/p/6923607.html，尊重原創 tf.add_to_collection：把變數放入一個集合，把很多變數變成一個列表 tf.get_collection：從一個結合中取出全部變數，是一個列表 tf.add_n：把一個列表

機器學習中regularization正則化（加入weight_decay）的作用

Regularization in Linear Regression 轉載自：http://blog.sina.com.cn/s/blog_a18c98e5010115ta.html Regularization是Linear Regression中很重要的一步。

CS229 5.用正則化(Regularization)來解決過擬合

1 過擬合過擬合就是訓練模型的過程中，模型過度擬合訓練資料，而不能很好的泛化到測試資料集上。出現over-fitting的原因是多方面的： 1）訓練資料過少，資料量與資料噪聲是成反比的，少量資料導致噪聲很大 2 ）特徵數目過多導致模型過於複雜，如下面的圖所示：看上圖中的多項式迴歸（Polyn

【Keras】減少過擬合的祕訣——Dropout正則化

Dropout正則化是最簡單的神經網路正則化方法。其原理非常簡單粗暴：任意丟棄神經網路層中的輸入，該層可以是資料樣本中的輸入變數或來自先前層的啟用。它能夠模擬具有大量不同網路結構的神經網路，並且反過來使網路中的節點更具有魯棒性。閱讀完本文，你就學會了在Keras框架中，如何將深度學習神經網路D

深度學習：正則化（L2、dropout）

一、在瞭解正則化之前，先引入一個概念“過擬合” 定義給定一個假設空間H，一個假設h屬於H，如果存在其他的假設h’屬於H,使得在訓練樣例上h的錯誤率比h’小，但在整個例項分佈上h’比h的錯誤率小，那麼就說假設h過度擬合訓練資料。也就是說一個假設在訓練資料上能夠獲