第九節，改善深層神經網絡：超參數調試、正則化以優化(下)

阿新 • • 發佈：2018-03-30

nbsp dao 區別行列式增加 ngs out 來看 row

一批標準化 (batch normalization)

部分內容來自：

Batch Normalization 批標準化

深度學習Deep Learning(05):Batch Normalization(BN)批標準化

參考論文：http://jmlr.org/proceedings/papers/v37/ioffe15.pdf

2015年Google提出的Batch Normalization
訓練深層的神經網絡很復雜，因為訓練時每一層輸入的分布在變化，導致訓練過程中的飽和，稱這種現象為：internal covariate shift。
需要降低學習率Learning Rate和註意參數的初始化，論文中提出的方法是對於每一個小的訓練batch都進行標準化(正態化)

允許使用較大的學習率。
不必太關心初始化的問題。
同時一些例子中不需要使用Dropout方法避免過擬合。
此方法在ImageNet classification比賽中獲得4.82% top-5的測試錯誤率。

批標準化通俗來說就是對每一層神經網絡進行標準化 (normalize) 處理, 我們知道對輸入數據進行標準化能讓機器學習有效率地學習，如果把每一層都

看成這種接受輸入數據的模式。

我們先來看看下面的兩個動圖, 了解下在每層神經網絡有無 batch normalization 的區別。

其中PreAct表示加權輸出值z，BN PreAct表示經過批標準化之後的輸出a。Act表示激活函數輸出z，BN Act表示BN PreAct經過激活函數的輸出a。

第一幅圖片激活函數選擇的是ReLU，第二幅圖片選擇的激活函數是Sigmoid函數。

看第一幅圖，我們可以看到在L2層之後，PreAct，以及Act輸出基本都為0了，說明神經網絡已經不起任何作用了。而經過BN處理後，我們可以看到

神經網絡可以正常工作。詳細內容參考這裏。

技術分享圖片

BN算法

- 如果輸入數據是白化的（whitened），網絡會更快的收斂
  - 白化目的是降低數據的冗余性和特征的相關性，例如通過線性變換使數據為0均值和單位方差
- 並非直接標準化每一層那麽簡單，如果不考慮歸一化的影響，可能會降低梯度下降的影響
- 標準化與某個樣本和所有樣本都有關系
  - 解決上面的問題，我們希望對於任何參數值，都要滿足想要的分布；
  - $技術分享圖片$
  - 對於反向傳播，需要計算: $技術分享圖片$ 和 $技術分享圖片$
  - 這樣做的計算代價是非常大的，因為需要計算x的協方差矩陣
  - 然後白化操作： $技術分享圖片$
- 上面兩種都不行或是不好，進而得到了BN的方法
- 既然白化每一層的輸入代價非常大，我們可以進行簡化
- 簡化1
  - 標準化特征的每一個維度而不是去標準化所有的特征，這樣就不用求協方差矩陣了
  - 例如d維的輸入： $技術分享圖片$
  - 標準化操作：
    $技術分享圖片$
  - 需要註意的是標準化操作可能會降低數據的表達能力,例如我們之前提到的Sigmoid函數：
  - 標準化之後均值為0，方差為1，數據就會落在近似線性的函數區域內，這樣激活函數的意義就不明顯
  - 所以對於每個，對應一對參數： $技術分享圖片$ ，然後令： $技術分享圖片$
  - 從式子來看就是對標準化的數據進行縮放和平移，不至於使數據落在線性區域內，增加數據的表達能力（式子中如果： $技術分享圖片$ ， $技術分享圖片$ ，就會使恢復到原來的值了）
  - 但是這裏還是使用的全部的數據集，但是如果使用隨機梯度下降，可以選取一個batch進行訓練
- 簡化2
  - 第二種簡化就是使用mini-batch進行隨機梯度下降
  - 註意這裏使用mini-batch也是標準化每一個維度上的特征，而不是所有的特征一起，因為若果mini-batch中的數據量小於特征的維度時，會產生

奇異協方差矩陣，對應的行列式的值為0，非滿秩

- 假設mini-batch 大小為m的B
- $技術分享圖片$ ，對應的變換操作為： $技術分享圖片$
- 作者給出的批標準化的算法如下：
- 算法中的ε是一個常量，為了保證數值的穩定性
反向傳播求梯度：
- 因為： $技術分享圖片$
- 所以： $技術分享圖片$
- 因為： $技術分享圖片$
- 所以： $技術分享圖片$
- $技術分享圖片$
- 因為： $技術分享圖片$ 和 $技術分享圖片$
- 所以： $技術分享圖片$
- 所以： $技術分享圖片$
- $技術分享圖片$
對於BN變換是可微分的，隨著網絡的訓練，網絡層可以持續學到輸入的分布。

　　`BN`網絡的訓練和推斷

按照BN方法，輸入數據x會經過變化得到BN（x），然後可以通過隨機梯度下降進行訓練，標準化是在mini-batch上所以是非常高效的。
但是對於推斷我們希望輸出只取決於輸入，而對於輸入只有一個實例數據，無法得到mini-batch的其他實例，就無法求對應的均值和方差了。
可以通過從所有訓練實例中獲得的統計量來**代替**mini-batch中m個訓練實例獲得統計量均值和方差
我們對每個mini-batch做標準化，可以對記住每個mini-batch的B，然後得到全局統計量
$技術分享圖片$
$技術分享圖片$ （這裏方差采用的是無偏方差估計）
所以推斷采用BN的方式為：
- $技術分享圖片$
作者給出的完整算法：

　　實驗

最後給出的實驗可以看出使用BN的方式訓練精準度很高而且很穩定。

第九節，改善深層神經網絡：超參數調試、正則化以優化(下)

nbsp dao 區別行列式增加 ngs out 來看 row 一批標準化 (batch normalization) 部分內容來自： Batch Normalization 批標準化深度學習Deep Learning(05):Batc

改善深層神經網絡：超參數調試、正則化及優化

正則 ria 左右訓練訓練集第一周 1.3 實驗必須第一周深度學習的實用層面 1.1 訓練、驗證、測試集應用機器學習是個高度叠代的過程：想法--->編碼--->實驗（1）神經網絡的層數（2）隱含層神經元個數（3）學習率（4）激勵函數

第2次課改善深層神經網路：超引數優化、正則化以及優化

1. 除錯處理超引數重要性排序學習速率(learning rate)α 動量權重β=0.9，隱藏層節點數，mini-batch size 層數，learning rate decay Adam優化演算法的引數β1=0.9,β2=0.999,ϵ=10

改善深層神經網路：超引數除錯、正則化以及優化_課程筆記_第一、二、三週

所插入圖片仍然來源於吳恩達老師相關視訊課件。仍然記錄一下一些讓自己思考和關注的地方。第一週訓練集與正則化這周的主要內容為如何配置訓練集、驗證集和測試集；如何處理偏差與方差；降低方差的方法（增加資料量、正則化：L2、dropout等）；提升訓練速度的方法：歸一化訓練集；如何合理的初始化權

論文學習-系統評估卷積神經網絡各項超參數設計的影響-Systematic evaluation of CNN advances on the ImageNet

得出 perf 超參數 epo sin 都是 top 初始化 sys 寫在前面論文狀態：Published in CVIU Volume 161 Issue C, August 2017 論文地址：https://arxiv.org/abs/1606.02228 gith

吳恩達改善深層神經網路引數：超引數除錯、正則化以及優化——優化演算法

機器學習的應用是一個高度依賴經驗的過程，伴隨著大量的迭代過程，你需要訓練大量的模型才能找到合適的那個，優化演算法能夠幫助你快速訓練模型。難點：機器學習沒有在大資料發揮最大的作用，我們可以利用巨大的資料集來訓練網路，但是在大資料下訓練網路速度很慢；使用快速的優化演算法大大提高效率

改善深層神經網路：超引數除錯、正則化以及優化優化演算法第二週

改善深層神經網路：超引數除錯、正則化以及優化優化演算法第二課 1. Mini-batch Batch vs Mini-batch gradient descent Batch就是將所有的訓練資料都放到網路裡面進行訓練，計算量大，硬體要求高。一次訓練只能得到一個梯

吳恩達改善深層神經網路：超引數除錯、正則化以及優化第一週

吳恩達改善深層神經網路：超引數除錯、正則化以及優化課程筆記第一週深度學習裡面的實用層面 1.1 測試集/訓練集/開發集原始的機器學習裡面訓練集，測試集和開發集一般按照6:2:2的比例來進行劃分。但是傳統的機器學習

吳恩達《深度學習-改善深層神經網路》3--超引數除錯、正則化以及優化

1. 系統組織超參除錯Tuning process1）深度神經網路的超參有學習速率、層數、隱藏層單元數、mini-batch大小、學習速率衰減、β（優化演算法）等。其重要性各不相同，按重要性分類的話：第一類：最重要的引數就是學習速率α 第二類：隱藏層單元數、min

《吳恩達深度學習工程師系列課程之——改善深層神經網路：超引數除錯、正則化以及優化》學習筆記

本課程分為三週內容：深度學習的使用層面優化演算法超引數除錯、Batch正則化和程式框架 WEEK1 深度學習的使用層面 1.建立神經網路時選擇：神經網路層數每層隱藏單元的個數學習率為多少各層採用的啟用函式為哪些 2

吳恩達deeplearning.ai課程《改善深層神經網路：超引數除錯、正則化以及優化》____學習筆記（第一週）

____tz_zs學習筆記第一週深度學習的實用層面（Practical aspects of Deep Learning）我們將學習如何有效運作神經網路（超引數調優、如何構建資料以及如何確保優化演算法快速執行）設定ML應用（Setting up your ML applic

吳恩達deep learning筆記第二課改善深層神經網路：超引數除錯、正則化以及優化

學習吳恩達DL.ai第二週視訊筆記。 1.深度學習實用層面在訓練集和驗證集來自相同分佈的前提下，觀察訓練集的錯誤率和驗證集的錯誤率來判斷過擬合（high variance高方差）還是欠擬合（high bias高偏差）. 比如訓練集錯誤率1%，驗證集11%則過擬合（

第十五節，卷積神經網絡之AlexNet網絡詳解(五)

主成分分析 ron 內容 too 步長節點隨機梯度 fc7 分辨原文 ImageNet Classification with Deep ConvolutionalNeural Networks 下載地址：http://papers.nips.cc/paper/4

deeplearning.ai 改善深層神經網絡 week3 聽課筆記

drop 概率向量 mini 之前裏的 bsp 結合一周這一周的主體是調參。 1. 超參數：No. 1最重要，No. 2其次，No. 3其次次。　　No. 1學習率α：最重要的參數。在log取值空間隨機采樣。例如取值範圍是[0.001, 1]，r = -4*n

卷積神經網絡中的參數計算

http cnblogs 大學卷積神經網絡 nbsp images 技術分享 logs 裏的舉例1：　　比如輸入是一個32x32x3的圖像，3表示RGB三通道，每個filter/kernel是5x5x3，一個卷積核產生一個feature map，下圖中，有6個5x5x

JAVA-初步認識-第九章-繼承-子父類中的構造函數-子類的實例化過程

pri 系統 color col 分享 log 添加就會 sys 一. 子父類中構造函數的特點。舉例演示一下，類中不寫構造函數，它裏面也是有的。只是寫出來，可以看的更清楚一些。 DOS結果顯示比較特別，在有Zi run的情況下，還有Fu run的存在。按道理說，子

第三次課：Pycharm參數設置、常用快捷鍵、調試方法

pycharm為提高編碼的逼格，加快編碼的效率，PyCharm的一些常用快捷操作方式我們是要掌握的，下面就羅列一下使用頻率很高的快捷方法：Ctrl + Alt + Space 快速導入任意類Ctrl + Shift + Enter 語句完成（當你完成一個語句，尤其是函數或方法編寫，此時光標還在括

Stanford機器學習---第三週.邏輯迴歸、正則化

第三週邏輯迴歸與正則化學完前三週簡要做個總結，梳理下知識框架：第一講邏輯迴歸Logistic Regression 1.分類問題Classification Problem for e

CS231n課程筆記3.1：線性分類器（SVM，softmax）的誤差函式、正則化

CS231n簡介課程筆記這篇是線性分類器的第二部分，回憶線性分類器的線性體現在score的獲得，即score = Wx+b，然後predict_label = argmax(score)。具體細節以及關於線性分類器的解釋請參考CS231n課程筆記

第十一節課：第九章，網絡卡繫結與sshd服務

8.4、服務的訪問控制列表 TCPwrappers是RHEL7中預設啟用的流量監控程式，能夠對服務做出允許或拒絕。 TCPwrappers服務由兩個檔案控制： &n

第九節，改善深層神經網絡：超參數調試、正則化以優化(下)

BN網絡的訓練和推斷

實驗

相關推薦

　　`BN`網絡的訓練和推斷

　　實驗