1. 程式人生 > >吳恩達深度學習筆記(deeplearning.ai)之循環神經網絡(RNN)(三)

吳恩達深度學習筆記(deeplearning.ai)之循環神經網絡(RNN)(三)

崩潰 body 很難 mark 因此 梯度 處理方法 弊端 原理

1. 導讀

本節內容介紹普通RNN的弊端,從而引入各種變體RNN,主要講述GRU與LSTM的工作原理。

2. 普通RNN的弊端

  • 在NLP中,句子內部以及句子之間可能存在很長的依賴關系(long-term dependecies),最前邊的單詞對句子後面的單詞產生影響。但是普通RNN不擅長捕獲這種長期依賴關系。因為RNN相當於很深的權重共享的神經網絡,因此在反向傳播的過程中存在很嚴重的梯度消失現象,損失函數得到的輸出誤差很難影響到前面層的計算。
  • 對於深度神經網絡,不光存在梯度消失,也存在梯度爆炸的現象,以至於網絡參數崩潰(當參數梯度指數級增長時,你會看到很多參數值為NaN,這意味著網絡發生了數值溢出)。普通RNN也是如此,但是相比於梯度消失,梯度爆炸比較容易解決,可以采用梯度修剪(gradient clipping)的處理方法。

    梯度修剪,指當梯度向量大於某個閾值時,re-scale梯度向量,保證它不會數值爆炸。

吳恩達深度學習筆記(deeplearning.ai)之循環神經網絡(RNN)(三)