吳恩達深度學習筆記(deeplearning.ai)之循環神經網絡(RNN)(三)
1. 導讀
本節內容介紹普通RNN的弊端,從而引入各種變體RNN,主要講述GRU與LSTM的工作原理。
2. 普通RNN的弊端
- 在NLP中,句子內部以及句子之間可能存在很長的依賴關系(long-term dependecies),最前邊的單詞對句子後面的單詞產生影響。但是普通RNN不擅長捕獲這種長期依賴關系。因為RNN相當於很深的權重共享的神經網絡,因此在反向傳播的過程中存在很嚴重的梯度消失現象,損失函數得到的輸出誤差很難影響到前面層的計算。
對於深度神經網絡,不光存在梯度消失,也存在梯度爆炸的現象,以至於網絡參數崩潰(當參數梯度指數級增長時,你會看到很多參數值為NaN,這意味著網絡發生了數值溢出)。普通RNN也是如此,但是相比於梯度消失,梯度爆炸比較容易解決,可以采用梯度修剪(gradient clipping)的處理方法。
梯度修剪,指當梯度向量大於某個閾值時,re-scale梯度向量,保證它不會數值爆炸。
吳恩達深度學習筆記(deeplearning.ai)之循環神經網絡(RNN)(三)
相關推薦
吳恩達深度學習筆記(deeplearning.ai)之循環神經網絡(RNN)(一)
不同的 圖片 存在 最終 一個 har end markdown 輸入 1. RNN 首先思考這樣一個問題:在處理序列學習問題時,為什麽不使用標準的神經網絡(建立多個隱藏層得到最終的輸出)解決,而是提出了RNN這一新概念? 標準神經網絡如下圖所示: 標準神經網絡在解決序列
吳恩達深度學習筆記(deeplearning.ai)之循環神經網絡(RNN)(二)
blog 如何 這一 累加 soft 學習 測試 接下來 數據 導讀 本節內容介紹如何使用RNN訓練語言模型,並生成新的文本序列。 語言模型(Language model) 通過語言模型,我們可以計算某個特定句子出現的概率是多少,或者說該句子屬於真實句子的概率是多少。正式點
吳恩達深度學習筆記(deeplearning.ai)之循環神經網絡(RNN)(三)
崩潰 body 很難 mark 因此 梯度 處理方法 弊端 原理 1. 導讀 本節內容介紹普通RNN的弊端,從而引入各種變體RNN,主要講述GRU與LSTM的工作原理。 2. 普通RNN的弊端 在NLP中,句子內部以及句子之間可能存在很長的依賴關系(long-term d
吳恩達深度學習筆記(deeplearning.ai)之卷積神經網路(CNN)(上)
1. Padding 在卷積操作中,過濾器(又稱核)的大小通常為奇數,如3x3,5x5。這樣的好處有兩點: 在特徵圖(二維卷積)中就會存在一箇中心畫素點。有一箇中心畫素點會十分方便,便於指出過濾器的位置。 在沒有padding的情況下,經過卷積操作,輸出的資
吳恩達深度學習筆記(七) —— Batch Normalization
學習 bat 中括號 和平 一個 內容 batch 可能 加權 主要內容: 一.Batch Norm簡介 二.歸一化網絡的激活函數 三.Batch Norm擬合進神經網絡 四.測試時的Batch Norm 一.Batch Norm簡介 1.在機器學習中,我們一般
吳恩達深度學習筆記(八) —— ResNets殘差網絡
con 一個 學習 ets str 帶來 圖片 梯度 就是 (好累……,明日在寫……) 主要內容: 一.殘差網絡簡介 二.identity block 和 convolutional block 一.殘差網絡簡介 1.深度神經網絡很大的一個優點就是能夠表示一個
吳恩達深度學習筆記(3)-神經網路如何實現監督學習?
神經網路的監督學習(Supervised Learning with Neural Networks) 關於神經網路也有很多的種類,考慮到它們的使用效果,有些使用起來恰到好處,但事實表明,到目前幾乎所有由神經網路創造的經濟價值,本質上都離不開一種叫做監督學習的機器學習類別,讓我們舉例看看。
吳恩達深度學習筆記(4)-為什麼深度學習會興起?
為什麼深度學習會興起?(Why is Deep Learning taking off?) 本節視訊主要講了推動深度學習變得如此熱門的主要因素。包括資料規模、計算量及演算法的創新。(3個重點概念!請背書!) 深度學習和神經網路之前的基礎技術理念已經存在大概幾十年了,為什麼它們現在才突
吳恩達深度學習筆記(9)-導數的簡單推導介紹
導數(Derivatives) 這個筆記我主要是想幫你獲得對微積分和導數直觀的理解。 或許你認為自從大學畢以後你再也沒有接觸微積分。 為了高效應用神經網路和深度學習,你並不需要非常深入理解微積分(這個哦,並不需要深入瞭解)。因此如果你觀看這個視訊或者以後的視訊時心想:“哇哦,這些知
吳恩達深度學習筆記(7)--邏輯迴歸的代價函式(Cost Function)
邏輯迴歸的代價函式(Logistic Regression Cost Function) 在上一篇文章中,我們講了邏輯迴歸模型,這裡,我們講邏輯迴歸的代價函式(也翻譯作成本函式)。 吳恩達讓我轉達大家:這一篇有很多公式,做好準備,睜大眼睛!代價函式很重要! 為什麼需要代價函式: 為
吳恩達深度學習筆記(8)-重點-梯度下降法(Gradient Descent)
梯度下降法(Gradient Descent)(重點) 梯度下降法可以做什麼? 在你測試集上,通過最小化代價函式(成本函式) J(w,b) 來訓練的引數w和b , 如圖,在第二行給出和之前一樣的邏輯迴歸演算法的代價函式(成本函式)(上一篇文章已講過) 梯度下降法的形象化
吳恩達深度學習筆記(2)-什麼是神經網路(Neural Network)
什麼是神經網路?(What is a Neural Network) 我們常常用深度學習這個術語來指訓練神經網路的過程。有時它指的是特別大規模的神經網路訓練。那麼神經網路究竟是什麼呢?在這個視訊中,會講解一些直觀的基礎知識。 首先,讓我們從一個房價預測的例子開
吳恩達深度學習筆記 course2 week3 超參數調試,Batch Norm,和程序框架
etc 值範圍 操作 normal 可能 標準 通過 pan 範圍 1.Tuning Process 對超參數的一個調試處理 一般而言,在調試超參數的過程中,我們通常將學習率learning_rate看作是最重要的一個超參數,其次是動量梯度下降因子β(一般為0.9),
吳恩達深度學習筆記(6)--邏輯迴歸(Logistic Regression)
邏輯迴歸(Logistic Regression) 在這節課中,我們會重溫邏輯迴歸學習演算法,該演算法適用於二分類問題,本節將主要介紹邏輯迴歸的Hypothesis Function(假設函式)。 對於二元分類問題來講,給定一個輸入特徵向量X,它可能對應一張圖片,你想識別這張圖片識
吳恩達深度學習筆記(21)-神經網路的權重初始化為什麼要隨機初始化?
隨機初始化(Random+Initialization) 當你訓練神經網路時,權重隨機初始化是很重要的。 對於邏輯迴歸,把權重初始化為0當然也是可以的。 但是對於一個神經網路,如果你把權重或者引數都初始化為0,那麼梯度下降將不會起作用。 讓我們看看這是為什麼? 有兩個輸入
吳恩達深度學習筆記(15-21)總結-淺層神經網路總結
恩達老師的這一週的淺層神經網路總結,還是簡單的架構說明,但是還是要仔細讀哦! 架構分為四部分: 神經網路表示 計算神經網路輸出 啟用函式 神經網路的梯度下降 第一和第二部分: 神經網路表示和計算神經網路輸出部分,由於本部分講的是淺層的網路輸出,所以就是隻有一個隱藏層的神經網路,你也
吳恩達深度學習筆記(22)-深層神經網路說明及前後向傳播實現
深層神經網路(Deep L-layer neural network) 目前為止我們已經學習了只有一個單獨隱藏層的神經網路的正向傳播和反向傳播,還有邏輯迴歸,並且你還學到了向量化,這在隨機初始化權重時是很重要。 目前所要做的是把這些理念集合起來,就可以執行你自己的深度神經網路。
吳恩達深度學習筆記(24)-為什麼要使用深度神經網路?
為什麼使用深層表示?(Why deep representations?) 我們都知道深度神經網路能解決好多問題,其實並不需要很大的神經網路,但是得有深度,得有比較多的隱藏層,這是為什麼呢? 我們一起來看幾個例子來幫助理解,為什麼深度神經網路會很好用。 首先,深度網路在計算什麼?
吳恩達深度學習筆記(25)-如何搭建神經網路模組?如何運算?
搭建神經網路塊(Building blocks of deep neural networks) 你已經看到過正向反向傳播的基礎組成部分了,它們也是深度神經網路的重要組成部分,現在我們來用它們建一個深度神經網路。 這是一個層數較少的神經網路,我們選擇其中一層(方框部分),從這一層的計算
吳恩達深度學習筆記(27)-深度學習與大腦的區別
深度學習和大腦有什麼關聯性嗎? 回答是:關聯不大。 那麼人們為什麼會說深度學習和大腦相關呢? 當你在實現一個神經網路的時候,那些公式是你在做的東西,你會做前向傳播、反向傳播、梯度下降法,其實很難表述這些公式具體做了什麼,深度學習像大腦這樣的類比其實是過度簡化了我們的大腦具體在做什麼,