【機器學習】【RNN中的梯度消失與梯度爆炸】

阿新 • • 發佈：2019-01-04

學習speech synthesis的Tacotron模型，而Tacotron是基於seq2seq attention，RNN中的一類。所以得先學習RNN，以及RNN的變種LSTM和GRU。

RNN的詳細我這裡不再介紹了，許多神犇的部落格及網上免費的課程講得都很詳細。這裡僅說明RNN中的梯度消失與梯度爆炸。文章若有錯誤，煩請大家批評指正。

以經典RNN為例，

假設我們的時間序列只有三段，S0為給定值，則RNN的前向傳播過程：

S1=tanh(Wx*X1+Ws*S0+b1)，O1=Wy*S1+b2，y1=g(O1)=g(Wy*S1+b2)

S2=tanh(Wx*X2+Ws*S1+b1)，O2=Wy*S2+b2，y2=g(O2)=g(Wy*S2+b2)

S3=tanh(Wx*X3+Ws*S2+b1)，O3=Wy*S3+b2，y3=g(O3)=g(Wy*S3+b2)

其中Wx為處理輸入的引數，Wy為處理輸出的引數，Ws為處理前一個時間序列的引數。

假設損失函式為L=1/2*(Y-y)^2，即在t=3時刻，損失函式為L3=1/2*(Y3-y3)^2

對於每一次訓練，損失函式為L=∑(t=0,T)Lt，即每一時刻損失值的累加。

我們訓練RNN的目的就是不斷調整引數，即Wx、Ws、Wy和b1，b2，使得它們讓L儘可能達到最小。

假設我們的三段時間序列為t1，t2，t3。

我們考慮t3時刻，對t3時刻的Wx、Ws、Wy求偏導：

可以看出，時間序列對Wy沒有長期依賴，而對Wx和Ws的偏導會隨著時間序列的增加，中間的求積過程就會不斷增加。

因此，根據上面的求偏導公式，可以得到任意時刻對Wx的求偏導公式：

任意時刻對Ws的的求偏導公式和上面類似。

而其中，Sj對Sj-1的偏導數，就是

啟用函式tanh和它的導數影象如下：（引用自zhihu）

可以看出，啟用函式tanh的導數是小於等於1的，訓練的過程中大部分情況下也小於1，因為很少出現WxXj+WsSj-1+b1=0的情況。如果Ws是一個大於0小於1的值，那麼當t很大時，就會無窮小，即趨於0；當Ws很大時，則會趨於無窮。

因此，梯度消失和梯度爆炸的根本原因就是這一坨連乘，我們要儘量去掉這一坨連乘，一種辦法就是使另一種辦法就是使其實這就是LSTM做的事情。

【機器學習】【RNN中的梯度消失與梯度爆炸】

學習speech synthesis的Tacotron模型，而Tacotron是基於seq2seq attention，RNN中的一類。所以得先學習RNN，以及RNN的變種LSTM和GRU。 RNN的詳細我這裡不再介紹了，許多神犇的部落格及網上免費的課程講得都很詳細。這裡僅

斯坦福CS229機器學習課程筆記一：線性迴歸與梯度下降演算法

機器學習三要素機器學習的三要素為：模型、策略、演算法。模型：就是所要學習的條件概率分佈或決策函式。線性迴歸模型策略：按照什麼樣的準則學習或選擇最優的模型。最小化均方誤差，即所謂的 least-squares(在spss裡線性迴歸對應的模組就叫OLS即Ordinary Least Squares)：

《機器學習實戰》書中python2.7與3.6的區別-持續更新

《機器學習實戰》書中使用的是python2.7，而對於現在新接觸python的同學來說都是上手python3.6版本。由於本渣渣也正在學習此書，將陸續列出遇到的不同於現實編碼的困難與解決方法（如果能解決的話.......）。 1.在import numpy時候，書中提倡

[深度學習] 梯度消失與梯度爆炸的原因及解決方法

前言本文主要深入介紹深度學習中的梯度消失和梯度爆炸的問題以及解決方案。本文分為三部分，第一部分主要直觀的介紹深度學習中為什麼使用梯度更新，第二部分主要介紹深度學習中梯度消失及爆炸的原因，第三部分對提出梯度消失及爆炸的解決方案。有基礎的同鞋可以跳著閱讀。其中，梯度消失爆炸的解

[深度學習] 梯度消失與梯度爆炸、Loss為Nan的原因

現象如何確定是否出現梯度爆炸？在訓練過程中出現梯度爆炸會伴隨一些細微的訊號，如：（1）模型無法從訓練資料中獲得更新；（2）模型不穩定，導致更新過程中的損失出現顯著變化；（3）訓練過程中，模型的損失變為Nan。梯度消失與梯度爆炸原因首先，來看神經

梯度消失與梯度爆炸總結

神經網路中梯度消失與梯度爆炸問題綜述前言隨著計算資源和資料量的增加，深度學習方法又再次回到公眾的視野。但是隨著深度的增加，神經網路的訓練越來越難，一個重要的原因是，深度的增加會導致梯度消失和梯度爆炸問題的出現，使網路權重難以訓練。文章分為兩部分，第一部分簡單介紹梯度消失和

梯度消失與梯度爆炸

LSTM 與 Gradient Vanish 上面說到，LSTM 是為了解決 RNN 的 Gradient Vanish 的問題所提出的。關於 RNN 為什麼會出現 Gradient Vanish，上面已經介紹的比較清楚了，本質原因就是因為矩陣高次冪導致的。下面簡要解釋一下為什麼 LSTM 能有效避免 Gr

梯度消失與梯度膨脹，以及6種解決措施

我無意中看到一篇公眾號，挺不錯，就寫下來了 1.梯度消失根據鏈式法則，如果每一層神經元對上一層的輸出的偏導乘上權重結果都小於1的話，那麼即使這個結果是0.99，在經過足夠多層傳播之後，誤差對輸入層的偏導會趨於0。這種情況會導致靠近輸入層的隱含層神經元調整極小

Coursera | Andrew Ng (02-week-1-1.10)—梯度消失與梯度爆炸

該系列僅在原課程基礎上部分知識點添加個人學習筆記，或相關推導補充等。如有錯誤，還請批評指教。在學習了 Andrew Ng 課程的基礎上，為了更方便的查閱複習，將其整理成文字。因本人一直在學習英語，所以該系列以英文為主，同時也建議讀者以英文為主，中文輔助，以便後期

【機器學習】1 監督學習應用與梯度下降

例如 tla ges 機器 fprintf lns 找到輸入 style 監督學習簡單來說監督學習模型如圖所示其中 x是輸入變量又叫特征向量 y是輸出變量又叫目標向量通常的我們用（x,y）表示一個樣本而第i個樣本用（x（i），y（i））表示 h是輸出函

【機器學習】對梯度下降算法的進一步理解

獨立 com 線性回歸執行 ont 執行過程 wid 簡單的技術單一變量的線性回歸讓我們依然以房屋為例，如果輸入的樣本特征是房子的尺寸，我們需要研究房屋尺寸和房屋價格之間的關系，假設我們的回歸模型訓練集如下其中我們用 m表示訓練集實例中的實例數量， x代表特

【機器學習】--線性回歸中L1正則和L2正則

last clas nbsp post pan red font 推廣 http 一、前述 L1正則，L2正則的出現原因是為了推廣模型的泛化能力。相當於一個懲罰系數。二、原理 L1正則：Lasso Regression L2正則：Ridge Regression

【機器學習】在分類中如何處理訓練集中不平衡問題

原文地址：一隻鳥的天空，http://blog.csdn.net/heyongluoyao8/article/details/49408131 在分類中如何處理訓練集中不平衡問題在很多機器學習任務中，訓練集中可能會存在某個或某些類別下的樣本數遠大於另一些類別下的樣本數目。即類別不平衡，為了

【機器學習】基於梯度下降法的自線性迴歸模型

回顧關於梯度下降法以及線性迴歸的介紹，我們知道了：線性迴歸的損失函式為： J (

【機器學習】梯度下降法詳解

一、導數導數就是曲線的斜率，是曲線變化快慢的一個反應。二階導數是斜率變化的反應，表現曲線的凹凸性 y

【機器學習三】梯度下降法K-means優化演算法

K-means演算法延伸對於之前的一篇文章中說過K-means雖然效果可以，但是對給定的K值敏感，簇中心位置敏感以及計算量大。所以針對以上兩點有了一些優化的方法。對於給定的K值偏大或者偏小都將影響聚類效果。而由於對於需要聚類的資料本身沒有一個y值即分類值，這正是需要演算法最後得出的。所以

【機器學習二】梯度下降法KMeans

KMeans聚類的思想: 給定一個有M個物件的資料集，構建一個具有k個簇的模型，其中k<=M。滿足以下條件： • 每個簇至少包含一個物件 • 每個物件屬於且僅屬於一個簇 • 將滿足上述條件的k個簇成為一個合理的聚類劃分 • 基本思想：對於給定的類別數目k，首先給定初始劃分，通過迭代改

【機器學習】EM演算法在高斯混合模型學習中的應用

前言 EM演算法，此部落格介紹了EMEM演算法相關理論知識，看本篇部落格前先熟悉EMEM演算法。本篇部落格打算先從單個高斯分佈說起，然後推廣到多個高斯混合起來，最後給出高斯混合模型引數求解過程。單個高斯分佈假如我們有一些資料，這些資料來自同一個

【機器學習筆記04】隨機梯度下降

梯度下降梯度下降是一個尋找函式機值的方式，屬於最優化裡的基礎演算法，在低維度的情況下非常容易理解。例如存在函式y=x2y=x^2y=x2存在導數dy=2x，若當前點在x=1點，設dx的步長為0.1。此時我們通過負梯度計算下一個x點xt+1=xt−2∗0.

【機器學習筆記23】神經網路（RNN)

基礎迴圈神經網路迴圈神經網路（RNN）是一個由神經元和權值構成的有向圖，它的當前狀態與前一時刻的狀態和當前輸入決定，因此當前狀態也被稱為工作記憶。迴圈神經網路在時間序列上展開後如上圖所示，用於解決序列化的問題，諸如語音識別、語音合成、文字生成。例子:利

【機器學習】【RNN中的梯度消失與梯度爆炸】

相關推薦