機器學習中的正則化（Regularization）

阿新 • • 發佈：2018-12-17

參考知乎回答：https://www.zhihu.com/question/20924039

以及部落格 https://blog.csdn.net/jinping_shi/article/details/52433975

定義&用途

經常能在LOSS函式的後面看到額外加了一項，這一項就是用來正則化的，為了限制損失函式中一些引數

正則化是用來幹什麼的呢？--是用來防止過擬合的

這個圖表示的就是過擬合的狀態，這樣對訓練資料的擬合度是很高的，但是換成測試資料的時候可能就準確率不夠了

防止過擬合的一種方法就是減小選擇的特徵數量，也就是讓這些特徵的係數向量中一部分變為0，

n個特徵前面的向量：W = {w0,w1,w2.....wn}

這就符合0範數的定義了

0範數：向量中非0元素的個數

1範數：絕對值之和 -- L1 norm L1正則化

2範數：向量的模 -- L2正則化

所以後面新增的項為 r(d) = “讓W向量中項的個數最小化” = $\left| W \right| _{0}$

在訓練中，要讓loss變小，也要讓W向量中項的個數變小，所以兩者求和最小就好了

一般都會在正則化項之前新增一個係數

由於0範數很難求，實踐中是NP完全問題，所以1範數應用的更廣泛

而2範數相當於求模運算，也就是個向量的平方求和在開算術平方根，讓L2範數的正則項最小，可以使得向量中各項都很小，但不會為0

解釋

帶L1正則項的損失函式；也就是在後面絕對值函式的約束下，求解J的最小解

L1正則化可以產生一個稀疏權重矩陣，可以用作特徵選擇，一定程度上可以防止過擬合；

L2正則化也可以防止過擬合

只考慮二維（w1,w2）的情況，圖片來自部落格：https://blog.csdn.net/jinping_shi/article/details/52433975

圖中的等值線為J0等值線，黑色直線為後面新增項的的圖形，在圖中，J0與新增項的圖形首次相交的點即為最優解。圖中可以看出，此時的交點為菱形上面那個頂點，也就是第一個w為0；

擴充套件到多維的情況，後面新增項的圖形依然是有很多突出的“角”（絕對值函式），而與這些角相交的概率更大，而在這些角上會有很多權值為0，這就是為什麼L1正規化會產生稀疏的權值矩陣以及適合進行特徵選擇

類似的，L2正規化的圖形也可以畫出來，但是圖形不再是充滿了稜角，而是如下所示：

所以L2正規化不會出現很多0的情況

在正則項前面的係數選擇上，通常越大的係數，會讓w衰減越快

機器學習筆記——正則化（regularization）

正則化過擬合我們在利用資料來進行曲線擬合的時候會出現三種情況，欠擬合（underfitting），合適（just right），過擬合（overfitting）。欠擬合的情況一般是由於變數太少，而過擬合的原因一般是變數太多下面我們主要考慮過擬合的問題。過擬合的解決方法一

機器學習之正則化（Regularization）

1. The Problem of Overfitting 1 還是來看預測房價的這個例子，我們先對該資料做線性迴歸，也就是左邊第一張圖。如果這麼做，我們可以獲得擬合數據的這樣一條直線，但是，實際上這並不是一個很好的模型。我們看看這些資料，很明顯，隨著房子面積增大，住房價格的變化趨於穩定或者說越往右越平緩

系統學習機器學習之正則化（二）

監督機器學習問題無非就是“minimizeyour error while regularizing your parameters”，也就是在規則化引數的同時最小化誤差。最小化誤差是為了讓我們的模型擬合我們的訓練資料，而規則化引數是防止我們的模型過分擬合我們的訓練資料。多麼簡約的哲學啊！因為引數太多，會導致

資料預處理中歸一化（Normalization）與損失函式中正則化（Regularization）解惑

背景：資料探勘/機器學習中的術語較多，而且我的知識有限。之前一直疑惑正則這個概念。所以寫了篇博文梳理下摘要：　　1.正則化（Regularization）　　　　1.1 正則化的目的　　　　　1.2 結構風險最小化（SRM）理論　　　　1.3 L1範數

機器學習中的正則化（Regularization）

參考知乎回答：https://www.zhihu.com/question/20924039 以及部落格 https://blog.csdn.net/jinping_shi/article/details/52433975 定義&用途經常能在L

機器學習筆記4：正則化（Regularization）

機器學習筆記4：正則化（Regularization） Andrew Ng機器學習課程學習筆記4 過擬合與欠擬合　　線性擬合時，有兩種擬合效果不好的情況，分別是過擬合與欠擬合。　　過擬合(overfitting)，也叫高方差(variance)。主要是擬合曲線過於彎曲，雖然

[work*] 機器學習中正則化項L1和L2的直觀理解

正則化（Regularization）機器學習中幾乎都可以看到損失函式後面會新增一個額外項，常用的額外項一般有兩種，一般英文稱作-norm和-norm，中文稱作L1正則化和L2正則化，或者L1範數和L2範數。 L1正則化和L2正則化可以看做是損失函式的懲罰項。所謂『懲罰

機器學習中正則化項L1和L2的直觀理解

正則化（Regularization）機器學習中幾乎都可以看到損失函式後面會新增一個額外項，常用的額外項一般有兩種，一般英文稱作ℓ1ℓ1-norm和ℓ2ℓ2-norm，中文稱作L1正則化和L2正則化，或者L1範數和L2範數。 L1正則化和L2正則化可以看做

為什麼正則化（Regularization）可以減少過擬合風險

在解決實際問題的過程中，我們會傾向於用複雜的模型來擬合複雜的資料，但是使用複雜模型會產生過擬合的風險，而正則化就是常用的減少過擬合風險的工具之一。過擬合過擬合是指模型在訓練集上誤差很小，但是在測試集上表現很差(即泛化能力差)，過擬合的原因一般是由於資料中存在噪聲或者用了過於複

正則化（regularization）

一、過擬合（overfitting）問題上圖是房價（Price）與房子面積（Size）的關係的例項。我們的目標是利用多項式迴歸來根據房子面積來預測房價。左邊的模型僅用了一次項，此時模型引數有倆θ0、θ1，是一條直線；直觀的觀察樣本點（紅色×）的趨勢，我們發現該模型並不

機器學習5 正則化的線性迴歸（Regularized Linear Regression）和偏差對方差（Bias v.s. Variance）

在這篇博文中我們將會實現正則化的線性迴歸以及利用他去學習模型，不同的模型會具有不同的偏差-方差性質，我們將研究正則化以及偏差和方差之間的相互關係和影響。這一部分的資料是關於通過一個水庫的水位來預測水庫的流水量。為了進行偏差和方差的檢驗，這裡用12組資料進行迴

機器學習基礎（三十） —— 線性迴歸、正則化（regularized）線性迴歸、區域性加權線性迴歸（LWLR）

1. 線性迴歸線性迴歸根據最小二乘法直接給出權值向量的解析解（closed-form solution）： w=(XTX)−1XTy 線性迴歸的一個問題就是有可能出現欠擬合現象，因為它求的是具有最小均方誤差（LSE，Least Square Erro

機器學習：正則化技術

正則化（regularization）技術是機器學習中十分常用的技術，它在不同的模型或者情景中以不同的名字出現，比如以L2正則化為例，如果將L2正則化用於linear regression，那麼這就對應了ridge regression；如果將L2正則化用於神經網路（neural network），

【機器學習】正則化方法

正則化方法：L1和L2 regularization、資料集擴增、dropout 正則化方法：防止過擬合，提高泛化能力，減少部分特徵的權重，進而忽略部分無關緊要的特徵。因為考慮全部特徵會將噪聲加入進去，也就導致過擬合。在訓練資料不夠多時，或者overtraining時，常常會導致overf

深度學習：正則化（L2、dropout）

一、在瞭解正則化之前，先引入一個概念“過擬合” 定義給定一個假設空間H，一個假設h屬於H，如果存在其他的假設h’屬於H,使得在訓練樣例上h的錯誤率比h’小，但在整個例項分佈上h’比h的錯誤率小，那麼就說假設h過度擬合訓練資料。也就是說一個假設在訓練資料上能夠獲

【機器學習】正則化的線性迴歸 —— 嶺迴歸與Lasso迴歸

注：正則化是用來防止過擬合的方法。在最開始學習機器學習的課程時，只是覺得這個方法就像某種魔法一樣非常神奇的改變了模型的引數。但是一直也無法對其基本原理有一個透徹、直觀的理解。直到最近再次接觸到這個概念，經過一番苦思冥想後終於有了我自己的理解。 0. 正則化（

機器學習中正則懲罰項L0/L1/L2範數詳解

https://blog.csdn.net/zouxy09/article/details/24971995 原文轉自csdn部落格，寫的非常好。 L0: 非零的個數 L1: 引數絕對值的和 L2:引數平方和

斯坦福大學機器學習筆記——正則化的邏輯迴歸模型

在上面部落格中我們討論了正則化的線性迴歸模型，下面我們來討論一下正則化的邏輯迴歸模型。前面我們講述了兩種常用於邏輯迴歸的方法：基於梯度下降法的邏輯迴歸模型基於高階優化的邏輯迴歸模型基於

機器學習 LogsticRegression 正則化(matlab實現)

仍然使用之前的根據學生兩學期分數，預測錄取情況主程式：X = load('ex4x.dat'); y = load('ex4y.dat'); plotData(X,y); [m,n] = size(X)

機器學習中常見問題彙總（一）

深度學習框架TensorFlow中都有哪些優化方法？梯度下降演算法針對凸優化問題原則上是可以收斂到全域性最優的，因為此時只有唯一的區域性最優點。而實際上深度學習模型是一個複雜的非線性結構，一般屬於非凸問題，這意味著存在很多區域性最優點（鞍點），採用梯度下降演算法可能會陷入

機器學習中的正則化（Regularization）

定義&用途

解釋

相關推薦