機器學習：模型泛化（L1、L2 和彈性網絡）

阿新 • • 發佈：2018-07-13

如果開拓最優解曲線方法通過機器學習功能都是

一、嶺回歸和 LASSO 回歸的推導過程

1）嶺回歸和LASSO回歸都是解決模型訓練過程中的過擬合問題

具體操作：在原始的損失函數後添加正則項，來盡量的減小模型學習到的 θ 的大小，使得模型的泛化能力更強；

　2）比較 Ridge 和 LASSO

名詞

Ridge、LASSO：衡量模型正則化；
MSE、MAE：衡量回歸結果的好壞；
歐拉距離、曼哈頓距離：衡量兩點之間距離的大小；

理解

Ridge、LASSO：在損失函數後添加的正則項不同；
MSE、MAE：兩種誤差的表現形式與對應的 Ridge 和 LASSO 的兩種正則項的形式很像；
歐拉距離、曼哈頓距離

：歐拉距離和曼哈頓距離的整體表現形式，與 Ridge、LASSO 兩種正則項的形式也很像；

其它

在機器學習領域，對於不同的應用會有不同的名詞來表達不同的衡量標準，但其背後本質的數學思想非常相近，表達出的數學的含義也近乎一致，只不過應用在了不同的場景中而產生了不同的效果，進而生成了不同的名詞；

　3）明科夫斯基距離

明科夫斯基距離：
將明科夫斯基距離泛化：L_p 範數

p = 1：稱為 L1 範數，相當於從 (0, 0) 點到 X 向量的曼哈頓距離；
p = 2：稱為 L2 範數，相當於從 (0, 0) 點到 X 向量的歐拉距離；

　4）L1 正則、L2 正則

Ridge 回歸中添加了 L2 正則項，LASSO 回歸中添加了 L1 正則項；
L2 正則項和 L2 範數的區別在於，L2 正則項沒有開平方，但有時候也直接稱 L2 正則項為 L2 範數；（同理 L1 範數與 L1 正則項的關系）

原因： L2 正則項是用於放在損失函數中進行最優化，如果將 L2 正則項加上開根號，不會影響損失函數優化的最終結果，但是不帶根號會顯得整個式子更加簡單，所以對於 L2 正則項的式子中不帶根號；

同理在數學理論上也存在 L_n 正則項；

　5）L0 正則

目的：使 θ 的個數盡量少，進而限制 θ，使得擬合曲線上下抖動幅度不要太大，模型的泛化能力也會得以提高；

L0 的正則項：描述非 0 的 θ 參數的個數；

實際中很少使用 L0 正則來進行模型正則化的過程，而是用 L1 正則代替；

原因： L0 正則的優化是一個 NP 難的問題；它不能使用諸如梯度下降法，甚至是直接求出一個數學公式這樣的方式來直接找到最優解； L0 正則項本質是一個離散最優化的問題，可能需要窮舉所有的讓各種 θ 的組合為 0 的可能情況，然後依次來計算 J(θ) ，進而來覺得讓哪些 θ 為 0 哪些 θ 不為 0，所以說 L0 正則的優化是一個 NP 難的問題；

如果想限制 θ 的個數，通常使用 L1 正則；

二、彈性網（Elastic Net）

　1）公式

功能：也是解決模型訓練過程中的過擬合問題；

操作：在損失函數後添加 L1 正則項和 L2 正則項；

特點：同時結合了嶺回歸和 LASSO 回歸的優勢；

r：新的超參數，表示添加的兩個正則項的比例（分別為 r、1-r ）；

　2）現實中，在進行正則化的過程中，通常要先使用嶺回歸

優點：嶺回歸計算更精準；

缺點：不具有特征選擇的功能；

原因：如果特征非常多的話，嶺回歸不能將某些 θ 設置為 0，若 θ 的量太大的話到導致整體計算量也非常的大；

　3）當特征非常多時，應先考慮使用彈性網

原因：彈性網結合了嶺回歸的計算的優點，同時又結合了 LASSO 回歸特征選擇的優勢；

三、總結與開拓

　1）總結

訓練的機器學習模型不是為了在訓練數據集上有好的測試結果，而是希望在未來面對未知的數據集上有非常好的結果；
模型在面對未知數據集表現的能力，為該模型的泛化能力；（模型泛化是機器學習領域非常非常重要的話題）

分析和提升模型泛化能力的方法：

看學習曲線；
對模型進行交叉驗證；
對模型進行正則化；

　2）開拓

LASSO 回歸的缺點：急於將某些 θ 化為 0，過程中可能會產生一些錯誤，使得最終的模型的偏差比較大；

問題：LASSO 回歸在模型優化的過程中是有選擇的將某些 θ 化為 0 嗎？或者說有沒有什麽條件使得盡量避免讓相關性比較強的特征的系數化為 0 ？還是說這一行為只是單純的數學運算，就為目標函數盡量達到目標狀態？
“可能產生的錯誤”：將一些相關性比較強的特征的參數 θ 也化為 0，導致該特征丟失；

開拓思路

彈性網結合了嶺回歸和 LASSO 回歸二者的優勢，小批量梯度下降法結合了批量梯度下降法和隨機批量梯度下降法二者的優勢，類似的方法在機器學習領域經常被運用，用來創造出新的方法。

打個比方理解機器學習

參加考試前要做很多練習題，練習題就相當於訓練數據，目的不是為了在做練習題的過程中達到滿分，而是通過做練習題讓我們在面對新的考試題時得到更高的分數，考試中面對的新的題目相當於模型在未來生成環境中見到的新的數據。

機器學習：模型泛化（L1、L2 和彈性網絡）

如果開拓最優解曲線方法通過機器學習功能都是一、嶺回歸和 LASSO 回歸的推導過程 1）嶺回歸和LASSO回歸都是解決模型訓練過程中的過擬合問題具體操作：在原始的損失函數後添加正則項，來盡量的減小模型學習到的 θ 的大小，使得模型的泛化能力更強；

機器學習：模型評估和選擇

val 上一個 bootstrap 自助法 break all 誤差 rec 數據集 2.1 經驗誤差與擬合精度（accuracy）和錯誤率（error rate）：精度=1-錯誤率訓練誤差（training error）或經驗誤差（empirical error）泛

機器學習：模型性能度量(performance measure)(待補充)

splay 樣本常用 spl n) enc 統計學習方法後者性能對學習器的泛化性能進行評估，不僅需要有效的實驗估計方法，還需要有衡量模型泛化性能的評準指標，這就是性能度量。性能度量反應任務需求，對比不同模型能力時，使用不同性能度量能導致不同的評判結果。因此，模型的好

機器學習：模型性能評估與參數調優

rom 集中進行 groups 然而 val k-fold 證明 strong 模型性能評估的常用指標真陽性（True Positive，TP）：指被分類器正確分類的正例數據真陰性（True Negative，TN）：指被分類器正確分類的負例數據假陽性（False

機器學習：決策樹（基尼系數）

try matplot 代碼實現 sci bubuko div tro 兩種 () 一、基礎理解　1）公式 k：數據集中樣本類型數量； Pi：第 i 類樣本的數量占總樣本數量的比例　2）實例計算基尼系數 3 種情況計算基尼系數：基尼系數的性質與信息熵

機器學習：梯度消失（vanishing gradient）與梯度爆炸（exploding gradient）問題

1）梯度不穩定問題：什麼是梯度不穩定問題：深度神經網路中的梯度不穩定性，前面層中的梯度或會消失，或會爆炸。原因：前面層上的梯度是來自於後面層上梯度的乘乘積。當存在過多的層次時，就出現了內在本質上的不穩定場景，如梯度消失和梯度爆炸。（2）梯度消失（vanishing gradient

機器學習之模型選擇（K折交叉驗證，超引數的選擇）

來源： https://www.cnblogs.com/jerrylead/archive/2011/03/27/1996799.html 對於解決同一個問題，如怎麼選擇模型去擬合線性迴歸中只有一個特徵時房價預測問題，如可能有不同的模型去解決，如： 1、d = 1，h（

機器學習：模型估計於選擇(二)

交叉驗證t檢驗是在一個數據集上比較兩個演算法的效能，但有時我們需要在一組資料集上對多個演算法進行比較，可以使用基於演算法排序的Friendman檢驗。我們假設D1_{1}1、D2_{2}2、D3_{3}3、D4_{4}4四個資料集對演算法A、B、C進行比較，首先使用留出發或交叉驗證法得到每個演算法在

Python 語言學習第三篇：陣列型別（列表、字典和元組）

列表和欄位都可以在原處進行修改，可以按照需求增長或縮短，並且可以包含任何型別的物件或被巢狀。列表和字典儲存的是物件的引用，而不是拷貝。一，列表列表是有序的序列，每一個列表項的順序是固定的，這使得列表可以通過指定的偏移來索引和分片。列表是可變的序列，支援在原處修改。列表項可以是任何型別，或物件，也可

Python 語言學習第七篇：函式1（定義、呼叫和變數的作用域）

函式是把一些語句集合在一起的程式結構，用於把複雜的流程細分成不同的元件，能夠減少程式碼的冗餘、程式碼的複用和修改程式碼的代價。函式可以0個、1個或多個引數，向函式傳遞引數，可以控制函式的流程。函式還可以返回程式碼執行的結果，從技術上講，任何函式都要返回結果，一個沒有返回值的函式會自動返回none物件。如果

機器學習之模型評估（還是沒搞定...）

任務介紹 1.任務：預測貸款使用者是否會逾期 2.status是標籤：0表示未逾期，1表示逾期【任務四：模型評估】記錄五個模型關於precision，rescore，f1，auc，roc的評分表格，畫出auc和roc曲線圖。模型 Precesion

Python 語言學習第八篇：函式2（引數、lamdba和函式屬性）

函式的引數是引數暴露給外部的介面，向函式傳遞引數，可以控制函式的流程，函式可以0個、1個或多個引數；在Python中向函式傳參，使用的是賦值方式。一，傳遞引數引數是通過賦值來傳遞的，傳遞引數的特點是：引數的傳遞是通過自動把物件賦值給函式的本地變數名來實現的，在函式內部的變數名的賦值不會

機器學習：決策樹（Decision Tree）

1. 理論概述：決策樹的內部節點表示一個特徵或屬性，葉子節點表示一個類別。輸入一個新樣本，從根節點開始按照節點說示的特徵劃分，直到劃分到葉子節點，該葉子節點即為類別。關於熵的基礎知識熵：

機器學習：模型評估-sklearn中的評估函式

1.介紹有三種不同的方法來評估一個模型的預測質量：estimator的score方法：sklearn中的estimator都具有一個score方法，它提供了一個預設的評估法則來解決問題。Scoring引數：使用cross-validation的模型評估工具，依賴於內部的sco

機器學習：決策樹（Decision Tree）

本部落格參考鄒博機器學習課件以及李航的《統計學習方法》，僅用於督促自己學習使用，如有錯誤，歡迎大家提出更正決策樹（decision tree）是一種基本的分類與迴歸方法。在分類問題中，它可以認為是if-then規則的集合，也可以認為是定義在特徵空間與

機器學習，模型評估（udacity nanodegree 1-3總結）

機器學習現在太火熱了，太多人在學，我也跟風在學，一次偶然機會了解到優達學城，本文作為課程的總結。 1.機器學習 1.1機器學習的定義維基百科中機器學習有下面幾種定義：機器學習是一門人工智慧的科學，該領域的主要研究物件是人工智慧，特別是如何在經驗學習中改善具體演算

機器學習：隨機森林（Random Forest）

隨機森林，Random Forest，簡稱RF，是一個很強大的模型。要研究隨機森林，首先要研究決策樹，然後再去看RF是怎麼通過多顆決策樹的整合提高的模型效果。決策樹分為三種，分別是ID3、C4.5和CART決策樹： ID3：資訊增益 C4.5：資訊增益率

zookeeper（四）：核心原理（Watcher、事件和狀態）

ted sso 兩個 reat exist 這一通過投票 children zookeeper主要是為了統一分布式系統中各個節點的工作狀態，在資源沖突的情況下協調提供節點資源搶占，提供給每個節點了解整個集群所處狀態的途徑。這一切的實現都依賴於zookeeper中的事件監

Python web入門：Django學習與實踐二（簡單頁面實現和建立一個模板）

一、第一個頁面實現（“hello world”）實現步驟： 1.在views.py檔案中建立一個處理函式（引數名可以隨意，但是最好使用request，看起來清楚明瞭） def index（request）：

Python學習第四天（變數、集合和字串）

上一篇沒有儲存傷心變數在賦值時即被建立===賦值會讓變數自動生成變數在表示式中使用以前必須被賦值 ———————————————————————————————————————————————— 集合集合中的一個項無論新增多少次，只能出現一次集合是無序的、唯一的、不

機器學習：模型泛化（L1、L2 和彈性網絡）

一、嶺回歸和 LASSO 回歸的推導過程

1）嶺回歸和LASSO回歸都是解決模型訓練過程中的過擬合問題

2）比較 Ridge 和 LASSO

3）明科夫斯基距離

4）L1 正則、L2 正則

5）L0 正則

二、彈性網（Elastic Net）

1）公式

三、總結與開拓

1）總結

2）開拓

相關推薦

　2）比較 Ridge 和 LASSO

　3）明科夫斯基距離

　4）L1 正則、L2 正則

　5）L0 正則

　1）公式

　1）總結

　2）開拓