吳恩達深度學習筆記（8）-重點-梯度下降法（Gradient Descent）

阿新 • • 發佈：2018-11-24

梯度下降法（Gradient Descent）（重點）

梯度下降法可以做什麼？

在你測試集上，通過最小化代價函式（成本函式） J(w,b) 來訓練的引數w和b ，

在這裡插入圖片描述

如圖，在第二行給出和之前一樣的邏輯迴歸演算法的代價函式（成本函式）(上一篇文章已講過）

梯度下降法的形象化說明

圖片描述(最多50字)

在這個圖中，橫軸表示你的空間引數w 和 b ，在實踐中，w可以是更高的維度，但是為了更好地繪圖，我們定義 w 和b，都是單一實數，代價函式（成本函式）J(w,b)是在水平軸w和b上的曲面，因此曲面的高度就是 J(w,b)在某一點的函式值。我們所做的就是找到使得代價函式（成本函式）J(w,b)函式值是最小值，對應的引數w 和b 。

圖片描述(最多50字)

如圖，代價函式（成本函式） J(w,b) 是一個凸函式(convex function)，像一個大碗一樣。

圖片描述(最多50字)

如圖，這就與剛才的圖有些相反，因為它是非凸的並且有很多不同的區域性最小值。由於邏輯迴歸的代價函式（成本函式) J(w,b) 特性，我們必須定義代價函式（成本函式） J(w,b) 為凸函式。初始化w和b ，

圖片描述(最多50字)

可以用如圖那個小紅點來初始化引數w和b ，也可以採用隨機初始化的方法，對於邏輯迴歸幾乎所有的初始化方法都有效，因為函式是凸函式，無論在哪裡初始化，應該達到同一點或大致相同的點。

在這裡插入圖片描述
我們以如圖的小紅點的座標來初始化引數w和 b。

朝最陡的下坡方向走一步，不斷地迭代

圖片描述(最多50字)

我們朝最陡的下坡方向走一步，如圖，走到了如圖中第二個小紅點處。

在這裡插入圖片描述
我們可能停在這裡也有可能繼續朝最陡的下坡方向再走一步，如圖，經過兩次迭代走到第三個小紅點處。

直到走到全域性最優解或者接近全域性最優解的地方

通過以上的三個步驟我們可以找到全域性最優解，也就是代價函式（成本函式）這個凸函式的最小值點。

梯度下降法的細節化說明（僅有一個引數）

(這是一個二維的，較好理解些）

圖片描述(最多50字)

假定代價函式（成本函式）J（w）只有一個引數w，即用一維曲線代替多維曲線，這樣可以更好畫出影象。
圖片描述(最多50字)

圖片描述(最多50字)

迭代就是不斷重複做如圖的公式:

: 表示更新引數, a 表示學習率（learning rate），用來控制步長（step），即向下走一步的長度

圖片描述(最多50字)
就是函式J(w)對 w求導（derivative），在程式碼中我們會使用dw表示這個結果

圖片描述(最多50字)

對於導數更加形象化的理解就是斜率（slope），如圖該點的導數就是這個點相切於J(w)的小三角形的高除寬。假設我們以如圖點為初始化點，該點處的斜率的符號是正的，即

在這裡插入圖片描述

所以接下來會向左走一步。

圖片描述(最多50字)

整個梯度下降法的迭代過程就是不斷地向左走，直至逼近最小值點。
圖片描述(最多50字)

假設我們以如圖點為初始化點，該點處的斜率的符號是負的，即

圖片描述(最多50字)
所以接下來會向右走一步。

在這裡插入圖片描述
整個梯度下降法的迭代過程就是不斷地向右走，即朝著最小值點方向走。

梯度下降法的細節化說明（兩個引數）

邏輯迴歸的代價函式（成本函式）J(w,b) 是含有兩個引數的。

圖片描述(最多50字)

δ表示求偏導符號，可以讀作round，

在這裡插入圖片描述

就是函式J(w,b)對w求偏導，在程式碼中我們會使用dw表示這個結果。
圖片描述(最多50字)
就是函式J(w,b)對b求偏導，在程式碼中我們會使用 db表示這個結果，

小寫字母d 用在求導數（derivative），即函式只有一個引數，偏導數符號 δ 用在求偏導（partial derivative），即函式含有兩個以上的引數。

這篇文章中會用到求導和偏導的相關知識，如果不懂的話，可能要去補習下知識咯！

不過不用擔心，下一篇文章就是會講到這些知識點，可以看下一篇的講解了解！

吳恩達深度學習筆記（8）-重點-梯度下降法（Gradient Descent）

梯度下降法（Gradient Descent）（重點）梯度下降法可以做什麼？在你測試集上，通過最小化代價函式（成本函式） J(w,b) 來訓練的引數w和b ，如圖，在第二行給出和之前一樣的邏輯迴歸演算法的代價函式（成本函式）(上一篇文章已講過）梯度下降法的形象化

吳恩達深度學習筆記（deeplearning.ai）之循環神經網絡（RNN）（一）

不同的圖片存在最終一個 har end markdown 輸入 1. RNN 首先思考這樣一個問題：在處理序列學習問題時，為什麽不使用標準的神經網絡（建立多個隱藏層得到最終的輸出）解決，而是提出了RNN這一新概念？標準神經網絡如下圖所示：標準神經網絡在解決序列

吳恩達深度學習筆記（deeplearning.ai）之循環神經網絡（RNN）（二）

blog 如何這一累加 soft 學習測試接下來數據導讀本節內容介紹如何使用RNN訓練語言模型，並生成新的文本序列。語言模型（Language model）通過語言模型，我們可以計算某個特定句子出現的概率是多少，或者說該句子屬於真實句子的概率是多少。正式點

吳恩達深度學習筆記（deeplearning.ai）之循環神經網絡（RNN）（三）

崩潰 body 很難 mark 因此梯度處理方法弊端原理 1. 導讀本節內容介紹普通RNN的弊端，從而引入各種變體RNN，主要講述GRU與LSTM的工作原理。 2. 普通RNN的弊端在NLP中，句子內部以及句子之間可能存在很長的依賴關系（long-term d

吳恩達深度學習筆記（七） —— Batch Normalization

學習 bat 中括號和平一個內容 batch 可能加權主要內容：一.Batch Norm簡介二.歸一化網絡的激活函數三.Batch Norm擬合進神經網絡四.測試時的Batch Norm 一.Batch Norm簡介 1.在機器學習中，我們一般

吳恩達深度學習筆記（八） —— ResNets殘差網絡

con 一個學習 ets str 帶來圖片梯度就是（好累……，明日在寫……）主要內容：一.殘差網絡簡介二.identity block 和 convolutional block 一.殘差網絡簡介 1.深度神經網絡很大的一個優點就是能夠表示一個

吳恩達深度學習筆記（3）-神經網路如何實現監督學習？

神經網路的監督學習(Supervised Learning with Neural Networks) 關於神經網路也有很多的種類，考慮到它們的使用效果，有些使用起來恰到好處，但事實表明，到目前幾乎所有由神經網路創造的經濟價值，本質上都離不開一種叫做監督學習的機器學習類別，讓我們舉例看看。

吳恩達深度學習筆記（4）-為什麼深度學習會興起？

為什麼深度學習會興起？(Why is Deep Learning taking off?) 本節視訊主要講了推動深度學習變得如此熱門的主要因素。包括資料規模、計算量及演算法的創新。(3個重點概念！請背書！）深度學習和神經網路之前的基礎技術理念已經存在大概幾十年了，為什麼它們現在才突

吳恩達深度學習筆記（9）-導數的簡單推導介紹

導數（Derivatives）這個筆記我主要是想幫你獲得對微積分和導數直觀的理解。或許你認為自從大學畢以後你再也沒有接觸微積分。為了高效應用神經網路和深度學習，你並不需要非常深入理解微積分（這個哦，並不需要深入瞭解）。因此如果你觀看這個視訊或者以後的視訊時心想：“哇哦，這些知

吳恩達深度學習筆記（7）--邏輯迴歸的代價函式（Cost Function）

邏輯迴歸的代價函式（Logistic Regression Cost Function）在上一篇文章中，我們講了邏輯迴歸模型，這裡，我們講邏輯迴歸的代價函式（也翻譯作成本函式）。吳恩達讓我轉達大家：這一篇有很多公式，做好準備，睜大眼睛！代價函式很重要！為什麼需要代價函式：為

吳恩達深度學習筆記（deeplearning.ai）之卷積神經網路（CNN）（上）

1. Padding 在卷積操作中，過濾器（又稱核）的大小通常為奇數，如3x3，5x5。這樣的好處有兩點：在特徵圖（二維卷積）中就會存在一箇中心畫素點。有一箇中心畫素點會十分方便，便於指出過濾器的位置。在沒有padding的情況下，經過卷積操作，輸出的資

吳恩達深度學習筆記（2）-什麼是神經網路（Neural Network）

什麼是神經網路？(What is a Neural Network) 我們常常用深度學習這個術語來指訓練神經網路的過程。有時它指的是特別大規模的神經網路訓練。那麼神經網路究竟是什麼呢？在這個視訊中，會講解一些直觀的基礎知識。首先，讓我們從一個房價預測的例子開

吳恩達深度學習第四課：卷積神經網路（學習筆記2）

前言 1.之所以堅持記錄，是因為看到其他人寫的優秀部落格，內容準確詳實，思路清晰流暢，這也說明了作者對知識的深入思考。我也希望能儘量將筆記寫的準確、簡潔，方便自己回憶也方便別人參考； 2.昨天看到兩篇關於計算機視覺的發展介紹的文章：[觀點|朱鬆純：初探計算機

吳恩達深度學習筆記 course2 week3 超參數調試,Batch Norm,和程序框架

etc 值範圍操作 normal 可能標準通過 pan 範圍 1.Tuning Process 對超參數的一個調試處理一般而言,在調試超參數的過程中,我們通常將學習率learning_rate看作是最重要的一個超參數,其次是動量梯度下降因子β(一般為0.9),

吳恩達深度學習筆記(6)--邏輯迴歸(Logistic Regression)

邏輯迴歸(Logistic Regression) 在這節課中，我們會重溫邏輯迴歸學習演算法，該演算法適用於二分類問題，本節將主要介紹邏輯迴歸的Hypothesis Function（假設函式）。對於二元分類問題來講，給定一個輸入特徵向量X，它可能對應一張圖片，你想識別這張圖片識

吳恩達深度學習筆記(21)-神經網路的權重初始化為什麼要隨機初始化？

隨機初始化（Random+Initialization）當你訓練神經網路時，權重隨機初始化是很重要的。對於邏輯迴歸，把權重初始化為0當然也是可以的。但是對於一個神經網路，如果你把權重或者引數都初始化為0，那麼梯度下降將不會起作用。讓我們看看這是為什麼？有兩個輸入

吳恩達深度學習筆記(15-21)總結-淺層神經網路總結

恩達老師的這一週的淺層神經網路總結，還是簡單的架構說明，但是還是要仔細讀哦！架構分為四部分：神經網路表示計算神經網路輸出啟用函式神經網路的梯度下降第一和第二部分：神經網路表示和計算神經網路輸出部分，由於本部分講的是淺層的網路輸出，所以就是隻有一個隱藏層的神經網路，你也

吳恩達深度學習筆記(22)-深層神經網路說明及前後向傳播實現

深層神經網路（Deep L-layer neural network）目前為止我們已經學習了只有一個單獨隱藏層的神經網路的正向傳播和反向傳播，還有邏輯迴歸，並且你還學到了向量化，這在隨機初始化權重時是很重要。目前所要做的是把這些理念集合起來，就可以執行你自己的深度神經網路。

吳恩達深度學習筆記(24)-為什麼要使用深度神經網路？

為什麼使用深層表示？（Why deep representations?）我們都知道深度神經網路能解決好多問題，其實並不需要很大的神經網路，但是得有深度，得有比較多的隱藏層，這是為什麼呢？我們一起來看幾個例子來幫助理解，為什麼深度神經網路會很好用。首先，深度網路在計算什麼？

吳恩達深度學習筆記(25)-如何搭建神經網路模組？如何運算？

搭建神經網路塊（Building blocks of deep neural networks）你已經看到過正向反向傳播的基礎組成部分了，它們也是深度神經網路的重要組成部分，現在我們來用它們建一個深度神經網路。這是一個層數較少的神經網路，我們選擇其中一層（方框部分），從這一層的計算