深度學習花書學習筆記第八章深度模型中的優化

阿新 • • 發佈：2018-12-13

學習和純優化有什麼不同

我們期望降低的是期望泛化誤差，也叫風險。但是我們平時訓練時是以訓練誤差計算，俗稱經驗風險最小化。可能導致過擬合。

訓練方式：

當原問題較難運算時，可以計算對等問題，使用代理損失函式。但是提前終止演算法使用的是真實的損失函式一般。

當訓練資料過多時，一般每次訓練不使用全部樣本，而是選取部分批次來訓練，大大降低了訓練成本，提高訓練速度。

但是要注意，選取批次樣本時，要先將資料打亂（shuffle），這樣選取的批次才具有隨機和獨立性。

使用單個樣本來訓練的方式稱為線上學習或隨機學習。整個訓練集的演算法稱為批量或確定性演算法。但是小批量也可簡單的稱為隨機演算法。

基於小批量的演算法，可以認為每次從同分布資料集中，取出部分資料，這樣每次訓練樣本都不會重複，可以更好的泛化。

神經網路優化中的挑戰

梯度範數：

區域性極小值：神經網路中存在多個區域性極小值點，我們很容易得到區域性極小值而造成代價更大。

高原、鞍點和其他平坦區域：

鞍點，某些切面極小值的同時在某些切面極大值。

平臺區域也較難找尋極值點，會不斷擾動。

懸崖和梯度爆炸：突然很大的斜率。可以使用梯度截斷來克服

長期依賴：無法記憶之前神經網路處理的內容，以及層數太多導致梯度消失與梯度爆炸。

非精確梯度：精確梯度難以計算的情況下求近似。

區域性和全域性結構間的弱對應：區域性優化可能較難實現的時候，重點關注引數初始化方式。

基本演算法

隨機梯度下降：SGD 每次取補丁批量的小樣本，計算梯度，然後根據梯度的均值，原有引數減去學習率乘以梯度的均值。

看到一種優化方式，初始時，批量大小逐漸增加，加快初始時訓練速度。

動量相關演算法（Polyak）：動量相關，原有SGD更新梯度的基礎上，增加了一個動量，代表本次梯度方向的動量，讓模型更穩定，更容易訓練。主要解決Hessian的病態條件，和隨機梯度的方差。

Nesterov動量演算法：動量演算法的變種，提高收斂速度，但是沒有改進收斂率

引數初始化策略

均勻初始化和高斯初始化

自適應學習率演算法

AdaGrad

RMSProp

Adam: AdaGrad + RMSProp

二階近似方法

優化策略和元演算法

批標準化：每層的輸入再做一次標準化，加快運算速度。

深度學習花書學習筆記第八章深度模型中的優化

學習和純優化有什麼不同我們期望降低的是期望泛化誤差，也叫風險。但是我們平時訓練時是以訓練誤差計算，俗稱經驗風險最小化。可能導致過擬合。訓練方式：當原問題較難運算時，可以計算對等問題，使用代理損失函式。但是提前終止演算法使用的是真實的損失函式一般。當訓練資料過多

深度學習花書學習筆記第十一章實踐方法論

效能度量根據任務需求，需要有不同的效能度量方式，常規度量方式如下： _ 真假認為真 true positive(TP) false positive(FP)

深度學習花書學習筆記第十章序列建模：迴圈神經網路

展開計算圖就是將迴圈圖展開成展開圖而已。迴圈神經網路就是如上網路，將某一層不斷重複，輸出重新作為輸入的一部分。雙向RNN 應用於上下文環境都影響結果的場景，如語音識別，文章翻譯等基於編碼-解碼的序列到序列架構可以將可變長度的輸入轉

深度學習花書學習筆記第十三章線性因子模型

線性因子模型通常用作其他混合模型的組成模組，用於描述資料生成過程。各種線性因子模型的主要區別在先驗概率不一樣。概率PCA服從高斯先驗。獨立成分分析不服從高斯先驗。其功能類似em演算法。用於分離特徵。區別？慢特徵分析（SFA）源於慢性原則。稀疏編碼可以進行特徵選擇。 PCA

深度學習花書學習筆記第十二章應用

大規模深度學習首先深度學習之所以能夠在現在獲得大的突破，主要依靠於硬體技術的進步和大資料的發展。卷積神經網路需要的高併發，依賴於GPU的發展不斷進步，甚至已經有了很多專用裝置，如谷歌TPU，阿里和華為也都有最新針對AI演算法的晶片。高併發時可能導致梯度下降出問題，目前多采用非同步梯度下降

深度學習花書學習筆記第六章深度前饋網路

深度前饋網路又稱多層感知機、前饋神經網路。即只有從x向y方向的傳播，最終輸出y。主要包括輸入層、隱藏層和輸出層。神經網路的模型可以解決非線性問題。計算網路的引數通過反向傳播；如果每一層隱藏層都只有wx+b的運算，則多層累加變為w1*(w2*(w3*x))+a = W*

深度學習花書學習筆記第十五章表示學習

本章的表示學習主要就是通過無監督訓練學習特徵的意思。這種沒有具體的演算法，就是介紹表示學習的應用和大概的分支，至於如何進行表示學習，沒有詳細介紹。感覺可以直接跳過。。貪心逐層無監督預訓練貪心演算法在無監督訓練中的應用，每層只關心當前，進行訓練。無監督指低層訓練

深度學習花書學習筆記第九章卷積網路

卷積運算內積和外積中的內積被通常認為時卷積，可交換性是因為他經過了翻轉。但是神經網路中一般不應用翻轉。而是直接使用互相關函式：動機三大特性：稀疏互動、引數共享、等變表示。稀疏互動：核的大小遠小於輸入。相對於全連線，一個輸入項隻影響較少神經元，大大減少運

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第八課迴圈神經網路

課程概要 1、傳統語言模型 2、迴圈神經網路 3、例項（python） 4、RNN處理的一些技巧 5、針對其他任務的序列模型 6、總結一、傳統語言模型語言模型可以計算一些系列的單詞的概率P（w1，…,wT) 可以用來進行機器翻譯單詞順序：p(the

增強學習筆記第八章表格類方法的規劃與學習

ping 學習筆記 com 下一步方法規劃分享高效 9.png 8.1 模型與規劃規劃，指利用已有經歷對環境提煉模型，減少對環境交互的依賴。 8.2 Dyna框架 8.3 當模型不對時第一種情況，原路已經行不通，在堵塞處往返多次後，value會被

學習筆記第八章使用CSS美化列表

空白 bar 獲得重新定義內容必須 graphic ogr 樣式第8章使用CSS美化列表 8.1 列表的基本結構在HTML中，列表結構可以分為兩種基本類型：有序列表和無序列表。使用標簽如下： <ul>...</ul>：標識無序列表；

《機器學習實戰》學習筆記第八章 —— 線性回歸

逆矩陣最小 png color 分享圖片 .html list 正則 pri 相關筆記：吳恩達機器學習筆記（一） —— 線性回歸吳恩達機器學習筆記（三） —— Regularization正則化主要內容：一.線性回歸之普通最小二乘法二.局部加權線性回

強化學習（RLAI）讀書筆記第八章表格方法的規劃與學習

第八章：Planning and Learning with Tabular Methods 本章為需要環境的model-based強化學習方法（如DP和啟發式搜尋）和不需要環境的model-free方法（比如MC和TD）提供一個統一的論述框架。基於模型的方法依賴規劃（planning）而無模型

《機器學習》周志華學習筆記第八章整合學習（課後習題）python實現

1.個體與整合 1.1同質整合 1.2異質整合 2.boosting:代表AdaBoost演算法 3.Bagging與隨機森林 3.1Bagging 是並行式整合學習方法最著名的代表（基於自主取樣法bootstrap sampling）自己學習時編寫了

CLR via C#學習筆記-第八章-分部方法

8.7 分部方法重寫基類的虛方法使用繼承基類讓子類重寫基類虛方法的做法存在很多問題，如下所示程式碼。 //工具生成的程式碼，儲存在某個程式碼檔案中 internal class Base { private String m_name; protected virtua

《Spring實戰》學習筆記-第八章：使用Spring Web Flow

第四版的第八章內容與第三版基本一致。本章內容：建立會話式web應用程式定義流程狀態和行為保護web流程網際網路的一個奇特之處就在於它很容易讓人迷失。有如此多的內容可以檢視和閱讀，而超連結是其強大魔力的核心所在。有時候，web應用程式需要控

《資料結構與演算法分析》學習筆記-第八章-不相交集

[toc] *** 對於每一對元素(a,b), a, b屬於S，aRb或者為true或者為false，則稱在集合S上定義關係R，如果aRb是true。那麼我們說a與b有關係。 ## 8.1 等價關係等價關係是滿足下列三個性質的關係R： 1. （自反性）對於所有的a屬於S，aRa 2. (對稱性)aRb當

《機器學習》周志華學習筆記第三章線性模型（課後習題）python 實現

線性模型一、內容 1.基本形式 2.線性迴歸：均方誤差是迴歸任務中最常用的效能度量 3.對數機率迴歸：對數機率函式（logistic function）對率函式是任意階可導的凸函式，這是非常重要的性質。 4.線性判別分析（LDA 是一種降維的方法） 5.多分類學習：

《統計學習方法》讀書筆記第五章

第五章決策樹概述　　1.可以認為是if-then的集合，也可以認為是定義在特徵空間與類空間上的條件概率分佈。　　2.主要優點是模型具有可讀性，分類速度快。　　3.包括三個步驟：特徵選擇、決策樹的生成和決策樹的修剪。 5.1 決策樹模

《Java編程思想》筆記第八章多態

屬於 his 私有方法對象 5.1 pri 同名 nal pan 1.向上轉型把子類引用當作父類引用。(子類對象賦值給父類引用) 2.綁定確定方法屬於哪個類。 3.前期綁定程序執行前綁定。 4.後期綁定也叫動態綁定程序運行時綁定。 5.構造器

深度學習花書學習筆記 第八章 深度模型中的優化

學習和純優化有什麼不同

神經網路優化中的挑戰

基本演算法

引數初始化策略

自適應學習率演算法

二階近似方法

優化策略和元演算法

相關推薦

深度學習花書學習筆記第八章深度模型中的優化