AI聖經-深度學習-讀書筆記（八）-深度模型中的優化

阿新 • • 發佈：2018-12-10

這一樣整理的內容非常少，以後會補上的。由於水平有限，實在看不懂。目前只是《深度學習》的第一版筆記，以後會以專欄的形式從新整理，不再是簡單的摘錄，更多的加上自己的思考。

深度模型中的優化

0 簡介

深度學習演算法在很多情況下都涉及優化。本章主要關注一類特定的優化問題：尋找神經網路上的一組引數 $θ$ ，它能顯著地降低代價函式 $J (θ)$ ，該代價函式通常包括整個訓練集上的效能評估和額外的正則化項。

1 學習與純優化有什麼不同

1.1 代理損失函式

基於最小化這種平均訓練誤差的訓練過程被稱為經驗風險最小化。經驗風險最小化很容易導致過擬合，在深度學習中，我們很少使用經驗風險最小化。通常我們會優化代理損失函式

。在某些情況下，代理損失函式比原函式學到的更多。此種訓練演算法一般不會停留在區域性極小值點。

1.2 批量演算法

機器學習演算法的目標函式通常可以分解為訓練樣本上的求和。機器學習中的優化演算法在計算引數的每一次更新的時候通常僅使用整個代價函式中一部分項來估計代價函式的期望值。

準確計算期望的代價非常大，因為我們需要在整個資料集上的每個樣本上評估模型。在實踐中，我們可以從資料集中隨機取樣少量的樣本，然後計算這些樣本上的平均值。

另一個促使我們從小數目樣本中獲得梯度的統計估計的動機是訓練集的冗餘。

批量梯度下降指使用全部資料集。批量指一組樣本。

小批量的大小的決定因素：

（1）更大的批量會計算更精確的梯度估計，但是回報卻是小於線性的；

（2）極小批量通常難以充分利用多核架構；

（3）所有樣本可以並行地處理，那麼記憶體消耗和批量大小會成正比；

（4）通常使用2的冪數作為批量大小可以獲得更少的執行時間，32-256；

（5）小批量在學習過程中加入噪聲，它們會有一些正則化的效果；

在資料集中的順序有很大的影響的情況下，很有必要再抽取小批量樣本前打亂樣本順序。

2 神經網路優化中的挑戰

梯度下降旨在朝下坡移動，而非明確尋求臨界點。而牛頓法的目標是尋求梯度為零的點。

梯度消失使得我們難以知道引數朝哪個方向移動能夠改變代價函式，而梯度爆炸會使學習不穩定。

3 基本演算法

隨機梯度下降（SGD）演算法中的一個關鍵引數是學習率，SGD使用固定的學習率。在實踐中，有必要隨著時間的推移逐漸降低學習率。 $ε_{k} = (1 - α) + α ε_{r}$

ε_{k} = (1 - α) + α ε_{r}

其中

α = \frac{k}{r}

4 自適應學習率演算法

學習率是難以設定的超引數之一，因為它對模型的效能有顯著的影響。

AdaGrad

獨立地適應所有模型引數的學習率。

對於訓練深度神經網路模型而言，從訓練開始時積累梯度平方會導致有效學習率過早和過量的減小。

AdaGrad在某些深度模型上效果不錯，但不是全部。

AdaGrad旨在應用於凸問題時快速收斂。

RMSProp

使用指數衰減平均。

RMSProp已被證明是一種有效且實用的深度神經網路優化演算法。目前它是深度學習從業者經常使用的優化方法之一。

Adam

Adam通常被認為對超引數的選擇相當魯棒，儘管學習率有時需要從建議的預設修改。

AI聖經-深度學習-讀書筆記（八）-深度模型中的優化

這一樣整理的內容非常少，以後會補上的。由於水平有限，實在看不懂。目前只是《深度學習》的第一版筆記，以後會以專欄的形式從新整理，不再是簡單的摘錄，更多的加上自己的思考。深度模型中的優化 0 簡介深度學習演算法在很多情況下都涉及優化。本章主要關

AI聖經-深度學習-讀書筆記（七）-深度學習中的正則化

深度學習中的正則化 0 簡介機器學習中的一個核心問題是設計不僅在訓練資料上表現好，而且能在新輸入上泛化好的演算法。採用顯式減少測試誤差（可能會增加訓練誤差）的策略稱為正則化。在深度學習的背景下，大多數正則化策略都會對估計進行正則化（以偏差的增加換取方差

AI聖經-深度學習-讀書筆記（六）-深度前饋網路

深度前饋網路（DFN） 0 簡介（1）DFN:深度前饋網路，或前饋神經網路（FFN），或多層感知機（MLP）（2）目標近似某個函式 f∗f∗。例如，定義一個對映y=f(x;θ)y=f(x;θ)，並且學習θθ的值，使它能夠得到最佳的函式近似。

《Android源代碼設計模式解析與實戰》讀書筆記（八）

code androi nal clas 函數轉發類和對象 cti comment 第八章、狀態模式 1.定義狀態模式中的行為是由狀態來決定，不同的狀態下有不同的行為。當一個對象的內在狀態改變時同意改變其行為，這個對象看起來像是改變了其類。

《Linux內核設計與實現》讀書筆記（八）- 中斷下半部的處理

sym dmesg 重新編譯 warn dad style lsp 之前 res 在前一章也提到過，之所以中斷會分成上下兩部分，是由於中斷對時限的要求非常高，需要盡快的響應硬件。主要內容：中斷下半部處理實現中斷下半部的機制總結中斷下半部的實現中斷實現

《可愛的Python》讀書筆記（八）

stack chardet 問題的最佳的解決方案，就是找到那段別人解決相似問題的代碼。今天做些能回顧所學知識點的小練習，類似的問題參考別人的代碼，修改成自己容易理解的模樣。1、實現簡單的棧。put(item)實現數據item插入棧中；get()實現從棧中取一個數據。# -*- coding: utf-

【讀書筆記（八）】程序員的職業素養

ase 一個時間存在也會專註的人編寫讓我程序員的職業素養原名“The Clean Coder”，單看書名可能以為這是一本講解怎樣編寫簡潔代碼的技術書籍，實則不然。相比之下，中文譯名要更貼近主題一些，這本書是編程大師Bob大叔40余年編程生涯的心得體會, 他以

軟件工程讀書筆記（八）——需求分析

技術分享導師機制 tom 完全工程技術 ood image 私以為軟件工程的起點便是需求分析。準確全面地找到這些需求主要有以下幾個步驟一、獲取和引導需求作為本科生，身邊共性的需求不難獲取，實驗室信息，導師信息，實

機器學習讀書筆記（四）樸素貝葉斯基礎篇之網站賬號分類

pan 技巧 nbsp 增強就是使用分類問題預測結果一、條件概率在學習計算p1和p2概率之前，我們需要了解什麽是條件概率，就是指在事件B發生的情況下，事件A發生的概率，用P(A|B)來表示。根據文氏圖，可以很清楚地看到在事件B發生的情況下，事件A發

機器學習讀書筆記（三）決策樹基礎篇之從相親說起

方法事務家裏分類筆記判斷都是 rom tro 一、決策樹決策樹是什麽？決策樹(decision tree)是一種基本的分類與回歸方法。舉個通俗易懂的例子，如下圖所示的流程圖就是一個決策樹，長方形代表判斷模塊(decision block)，橢圓形成代

TensorFlow-實戰Google深度學習框架筆記（上）

當我日誌不一定 rain 如何 validate .config 存儲構建 TensorFlow TensorFlow 是一種采用數據流圖（data flow graphs），用於數值計算的開源軟件庫。在 Tensorflow 中，所有不同的變量和運算都是儲存在計算圖

Elam的吳恩達深度學習課程筆記（一）

記憶力是真的差，看過的東西要是一直不用的話就會馬上忘記,於是乎有了寫部落格把學過的東西儲存下來，大概就是所謂的集鞏固，分享，後期查閱與一身的思想吧，下面開始正題深度學習概論什麼是神經網路什麼是神經網路呢，我們就以房價預測為例子來描述一個最簡單的神經網路模型。　　假設有6間

深度學習入門筆記（二）————線性神經網路解決異或問題（程式碼）

首先梳理一下思路輸入為1，0。00異或為0，01異或為1，10異或為1，11異或為0.所以輸出為2類如下圖可知，需要兩條線劃分。 Madaline用間接地辦法解決。多個線性函式進行劃分，然後對各個神經元的輸出做邏輯運算。如圖，用兩條直線實現了異或的劃分。線

斯坦福深度學習課程筆記（二）

損失函式和優化官網 ppt 1 損失函式損失函式是用來定量地分析我們的模型預測效果有多糟糕的函式。損失函式輸出值越大，代表我們的模型效果越糟糕。損失函式的通用表示：假設我們的資料集有N個樣本，{(xi,yi)}i=1N\{(x_i,y_i)\}^{N}_

深度學習&PyTorch筆記（1）線性迴歸模型

首先建立模型 class LinearRegression(nn.Module): def __init__(self): super(LinearRegression, self).__init__() # nn.Module 的初

深度學習基礎系列（八）| 偏差和方差

　　當我們費勁周章不斷調參來訓練模型時，不可避免地會思考一系列問題，模型好壞的評判標準是什麼？改善模型的依據何在？何時停止訓練為佳？　　要解決上述問題，我們需要引入偏差和方差這兩個概念，理解他們很重要，也是後續瞭解過擬合、正則化、提早終止訓練、資料增強等概念和方法的前提。一、概念定義偏差（bias）

深度學習物體檢測（八）——YOLO2

神經網路學習過程本質就是為了學習資料分佈,一旦訓練資料與測試資料的分佈不同,那麼網路的泛化能力也大大降低;另外一方面，一旦每批訓練資料的分佈各不相同(batch 梯度下降),那麼網路就要在每次迭代都去

機器學習讀書筆記（高斯混合模型GMM與EM）（改）

高斯混合模型（Gaussian mixture model，GMM）是單一高斯概率密度函式的延伸。GMM能夠平滑地近似任意形狀的密度分佈。欲瞭解高斯混合模型，那就先從基礎的單一高斯概率密度函式講起。（數學公式字型太難看了！！！！！！！）注意：這一一篇致力於詳

基於PyTorch的深度學習入門教程（八）——影象風格遷移

前言本文介紹怎樣執行Neural-Style演算法。Neural-Style或者叫做Neural-Transfer，將一個內容影象和一個風格影象作為輸入，返回一個按照所選擇的風格影象加工的內容影象。原理是非常簡單的：我們定義兩個距離，一個用於內容（Dc）

Python學習讀書筆記（1）

1. 轉義字元必須 ,’\n’,來和變數分開 2. 當Python直譯器讀取原始碼時，為了讓它按UTF-8編碼讀取，檔案開頭寫上這兩行： #!/usr/bin/env python3 # -*- coding: utf-8 -*- 第一行註釋是

AI聖經-深度學習-讀書筆記（八）-深度模型中的優化

深度模型中的優化

0 簡介

1 學習與純優化有什麼不同

1.1 代理損失函式

1.2 批量演算法

2 神經網路優化中的挑戰

3 基本演算法

4 自適應學習率演算法

相關推薦