神經網路之過擬合（附程式碼）

阿新 • • 發佈：2018-11-27

摘要

監督機器學習問題無非就是“minimizeyour error while regularizing your parameters”，也就是在規則化引數的同時最小化誤差。最小化誤差是為了讓我們的模型擬合我們的訓練資料，而規則化引數是防止我們的模型過分擬合我們的訓練資料。

什麼是過擬合

過擬合

一個假設在訓練資料上能夠獲得比其他假設更好的擬合，但是在訓練資料外的資料集上卻不能很好地擬合數據，此時認為這個假設出現了過擬合的現象。
模型把資料學習的太徹底，以至於把噪聲資料的特徵也學習到了。訓練集的準確率很高，但是在測試集準確率卻不高，無法泛化到實際應用中。

為什麼會出現過擬合

樣本問題

選取的樣本資料不足以代表預定的分類規則

樣本數量太少
選樣方法錯誤
樣本標籤錯誤
樣本資料存在分類決策面不唯一，隨著學習的進行，BP演算法使權值可能收斂過於複雜的決策面

一個樣本實際可以分成多類，但在樣本標註時只標註了一個分類
樣本噪聲干擾過大，使得機器將部分噪音認為是特徵從而擾亂了預設的分類規則

模型問題

假設的模型無法合理存在，或者說是假設成立的條件實際並不成立；
模型引數太多，模型複雜度過高

類比高次曲線擬合
權值學習迭代次數太多，擬合了訓練資料中的噪聲和訓練樣例中沒有代表性的特徵

例項

a neural network playground

如何防止過擬合

資料集

重新清洗資料
增加訓練用資料量
保留驗證資料集，對訓練成果進行驗證
獲取額外資料進行交叉驗證

降低模型複雜度

模型調整

採用更小的特徵集（神經元和層數）

一般，減小特徵集的方法有：特徵選擇和特徵抽取。
特徵選擇是指在原有的特徵中選擇一部分特徵來用，拋棄不重要的特徵，新的特徵集是原特徵集的子集
特徵抽取是指通過原有的高維特徵構建新的特徵，新的特徵維度遠遠低於原有特徵的維度，新的每一維特徵都是原有所有特徵的加權組合。最常見的特徵抽取方法有主成分分析（PCA）和因子分析。

訓練調整

使用權值衰減的方法，即每次迭代過程中以某個小因子降低每個權值
選取合適的停止訓練標準，使對機器的訓練在合適的程度

正則化

在進行目標函式或代價函式優化時，在目標函式或代價函式後面加上一個正則項，用於規範引數的分佈。一般有L1正則與L2正則等
假設模型引數服從先驗概率，即為模型引數新增先驗，只是不同的正則化方式的先驗分佈是不一樣的。這樣就規定了引數的分佈，使得模型的複雜度降低

損失函式正則化

L0

L0範數是指向量中非0的元素的個數。讓引數W是稀疏的,很難優化求解
L1

資料清洗

L1範數是指向量中各個元素絕對值之和，也叫“稀疏規則運算元”。L1範數是L0範數的最優凸近似，而且它比L0範數要容易優化求解

資料清洗

L2範數是指向量各元素的平方和然後求平方根。使得引數w變小加劇的效果。更小的引數值w意味著模型的複雜度更低，對訓練資料的擬合剛剛好（奧卡姆剃刀），不會過分擬合訓練資料，從而使得不會過擬合，以提高模型的泛化能力。
使矩陣可逆（存在唯一解）

網路結構正則化

dropout

資料清洗

過擬合，可以通過阻止某些特徵的協同作用來緩解。在訓練時候以一定的概率p來跳過一定的神經元

例項

a neural network playground

具體程式碼見GITHUB
- 訓練框架：TensorFlow
- 資料集：numpy 生成上下半圓分類資料
- 神經網路型別：3隱藏層，tanh啟用
- 訓練次數：20000
- 針對原始狀態、資料清洗、增加資料量、變化學習率、簡化模型、L1正則化、L2正則化、dropout等在同樣訓練次數下的訓練集和測試集loss值對比

序號	方法	100*訓練集loss值	100*測試集loss值
1	原始狀態	0.377945	0.884091
2	資料清洗	0.031726	0.207343
3	增加資料量	0.499281	0.467030
4	變化學習率	0.456729	0.502236
5	簡化模型	0.351006	0.493120
6	L1正則化	0.681640	0.729197
7	L2正則化	0.595900	0.742676
8	dropout	0.606940	0.614125

原始狀態擬合圖

原始狀態

使用資料清洗擬合圖

資料清洗

使用增加資料量擬合圖

增加資料量

使用變化學習率擬合圖

變化學習率

使用簡化模型擬合圖

簡化模型

使用L1正則化擬合圖

L1正則化

使用L2正則化擬合圖

L2正則化

使用dropout擬合圖

dropout

結論

從資料、模型、訓練方法三個方向入手
模型、訓練方法上需要增加調整引數，且增加的調整引數變化對結果影響較大。需要持續找出引數與原有分佈的規律

參考資料
- 百度百科
- 維基百科Overfitting
- Regularization（正則化）與Dropout
- 5 Ways How to Reduce Overfitting
- 特徵選擇常用演算法綜述
- 機器學習中的範數規則化之（一）L0、L1與L2範數
- 利用TensorFlow訓練簡單的二分類神經網路模型

神經網路之過擬合（附程式碼）

摘要監督機器學習問題無非就是“minimizeyour error while regularizing your parameters”，也就是在規則化引數的同時最小化誤差。最小化誤差是為了讓我們的模型擬合我們的訓練資料，而規則化引數是防止我們的模型過分擬合我們的訓練資料

神經網路之權重初始化（附程式碼）

摘要神經網路/深度學習模型訓練的過程本質是對權重進行更新，在對一個新的模型進行訓練之前，需要每個引數有相應的初始值。對於多層神經網路/深度學習而言，如何選擇引數初始值便成為一個值得探討的問題。本文從實現啟用值的穩定分佈角度來探討神經網路的效率優化問題權重在

神經網路於過擬合

“Small” neural network (fewer parameters; more prone to underfitting) Computationally cheaper "Large" neural network (more parameters; more prone to over

CNN-卷積神經網路防止過擬合的方法

過擬合出現的原因訓練的資料過少，無法準確獲得資料中的特徵全連線神經網路中引數增多也會導致過擬合問題（還可以導致計算速度減慢）過擬合解決的辦法 1. data augmentation: 這點不需要解釋太多，所有的過擬合無非就是訓練樣本的

用TensorFlow基於神經網路實現井字棋（含程式碼）

為了展示如何應用神經網路演算法模型，我們將使用神經網路來學習優化井字棋（Tic Tac Toe）。明確井字棋是一種決策性遊戲，並且走棋步驟優化是確定的。開始為了訓練神經網路模型，我們有一系列優化的不同的走棋棋譜，棋譜基於棋盤位置列表和對應的最佳落子點。考慮到棋盤的對稱性，通

卷積神經網路調參技巧（2）--過擬合（Dropout）

Dropout(丟棄) 首先需要講一下過擬合，訓練一個大型網路時，因為訓練資料有限，很容易出現過擬合。過擬合是指模型的泛化能力差，網路對訓練資料集的擬合能力很好，但是換了其他的資料集，擬合能力就變差了

吳恩達機器學習之過擬合問題

一、過擬合問題：———什麼是過度擬合問題？ 1.1兩個例子：例子一：　　　　　　　　　　　　　　　　　　　　　　模型假設函式的形式：　　　　　　　　　　　　　一次函式　　　　　　　　　　　　　　　　　二次函式　　　　　　　　　　　　　　　　高階多項式模型擬合效果：　　　　

(轉)正則化為什麼能防止過擬合正則化為什麼能防止過擬合（重點地方標紅了）

正則化為什麼能防止過擬合（重點地方標紅了）正則化方法：防止過擬合，提高泛化能力在訓練資料不夠多時，或者overtraining時，常常會導致overfitting（過擬合）。其直觀的表現如下圖所示，隨著訓練過程的進行，模型複雜度增加，在training data上的error漸漸減小

機器學習之過擬合欠擬合

機器學習之過擬合，欠擬合過擬合現象是指當我們能夠提高訓練集上的表現時，然而測試集的表現很差，例如在深度學習中經常訓練集達到99以上而資料集卻在50,60左右明顯過擬合，此時就要想辦法阻止過擬合，過擬合也成為過配。過擬合發生的本質原因，是由於監督學習問題的不適定：在高中數學我們知道，從n個

獨家 | 手把手教你用Python建立簡單的神經網路（附程式碼）

作者：Michael J.Garbade 翻譯：陳之炎校對：丁楠雅本文共2000字，建議閱讀9分鐘。本文將為你演示如何建立一個神經網路，帶你深入瞭解神經網路的工作方式。瞭解神經網路工作方式的最佳途徑莫過於親自建立一個神經網路，本文將演示如何做到這一點。

過擬合（原因、解決方案、原理）

（1）建模樣本抽取錯誤，包括（但不限於）樣本數量太少，抽樣方法錯誤，抽樣時沒有足夠正確考慮業務場景或業務特點，等等導致抽出的樣本資料不能有效足夠代表業務邏輯或業務場景；（2）樣本里的噪音資料干擾過大，大到模型過分記住了噪音特徵，反而忽略了真實的輸入輸出間的關係；（3）建模時的“邏輯假設”到了模型應用時

神經網路之文字情感分析（二）

Projet 2 在Project 1 中，我們學習瞭如何處理和統計reviews 基於上一個Project”一個蘿蔔一個坑”的思想，我們將文字進行了數字化，使得文字可以作為輸入進行訓練在Project 2中我們將構建一個兩層的神經網路，並進行訓練

統計學習方法——模型的選擇與評估（過擬合、泛化能力）

參考書目及論文：《統計學習方法》——李航、A Tutorial on Support Vector Machine for Pattern Recognition 監督學習的目的是找到一個輸入輸出對映（模型），使得這個模型不僅對訓練資料有很好的擬合能力，對於未知資料，它也

過擬合（定義、出現的原因4種、解決方案7種）

定義定義：給定一個假設空間H，一個假設h屬於H，如果存在其他的假設h’屬於H,使得在訓練樣例上h的錯誤率比h’小，但在整個例項分佈上h’比h的錯誤率小，那麼就說假設h過度擬合訓練資料。 ———《Machine Learning》Tom M.Mitchell出現過擬合的原因1.

教你用TensorFlow實現神經網路（附程式碼）

來源：雲棲社群作者：Pavel Surmenok 本文長度為2600字，建議閱讀5分鐘本文幫助你理解神經網路的應用，並使用TensorFlow解決現實生活中的問題。如果你一直關注資料科學

機器學習-11：MachineLN之過擬合

你要的答案或許都在這裡：小鵬的部落格目錄我想說：其實很多時候大家都想自己做一些事情，但是很多也都是想想而已，其實有了想法自己感覺可行，就可以去行動起來，去嘗試，即使最後敗了，也無怨無悔，有句

機器學習中：過擬合（overfitting）和欠擬合（underfitting）

Underfitting is easy to check as long as you know what the cost function measures. The definition of the cost function in linear regression is half the me

14過擬合（Overfitting）

過擬合：我們通過訓練集訓練的模型對於訓練樣本的的擬合程度十分高，就會放大一些不必要的特徵，再對測試集進行測試時，就容易造成測試精度很低，也就是模型的泛化能力很弱，這就是過擬合。那麼我們如何解決過擬合

機器學習之過擬合的解決方法

過擬合過擬合，是指模型在訓練集上表現的很好，但是在交叉驗證集合測試集上表現一般，也就是說模型對未知樣本的預測表現一般，泛化（generalization）能力較差。一般防止過擬合的方法有early stopping、資料集擴增（Data augmen

如何解決過擬合（overfitting）問題？

什麼是過擬合？為了得到一致假設而使假設變得過度嚴格稱為過擬合。過擬合的模型一般對訓練資料表現很好，而對測試資料表現很差。如何解決過擬合問題？ early stopping：可以設定一個迭代截斷的閾值，到了這個閾值迭代終止；也可以設定兩次迭代之間的accuracy提高

神經網路之過擬合（附程式碼）

摘要

什麼是過擬合

為什麼會出現過擬合

樣本問題

模型問題

例項

如何防止過擬合

資料集

降低模型複雜度

模型調整

訓練調整

損失函式正則化

網路結構正則化

例項

原始狀態擬合圖

使用資料清洗擬合圖

使用增加資料量擬合圖

使用變化學習率擬合圖

使用簡化模型擬合圖

使用L1正則化擬合圖

使用L2正則化擬合圖

使用dropout擬合圖

結論

相關推薦