三步理解--門控迴圈單元(GRU)，TensorFlow實現

1. 什麼是GRU

在迴圈神經⽹絡中的梯度計算⽅法中，我們發現，當時間步數較⼤或者時間步較小時，迴圈神經⽹絡的梯度較容易出現衰減或爆炸。雖然裁剪梯度可以應對梯度爆炸，但⽆法解決梯度衰減的問題。通常由於這個原因，迴圈神經⽹絡在實際中較難捕捉時間序列中時間步距離較⼤的依賴關係。

門控迴圈神經⽹絡（gated recurrent neural network）的提出，正是為了更好地捕捉時間序列中時間步距離較⼤的依賴關係。它通過可以學習的⻔來控制資訊的流動。其中，門控迴圈單元（gatedrecurrent unit，GRU）是⼀種常⽤的門控迴圈神經⽹絡。

2. ⻔控迴圈單元

2.1 重置門和更新門

GRU它引⼊了重置⻔（reset gate）和更新⻔（update gate）的概念，從而修改了迴圈神經⽹絡中隱藏狀態的計算⽅式。

門控迴圈單元中的重置⻔和更新⻔的輸⼊均為當前時間步輸⼊ $X_t$ 與上⼀時間步隱藏狀態$H_{t-1}$，輸出由啟用函式為sigmoid函式的全連線層計算得到。如下圖所示：

具體來說，假設隱藏單元個數為 h，給定時間步 t 的小批量輸⼊ $X_t\in_{}\mathbb{R}^{n*d}$（樣本數為n，輸⼊個數為d）和上⼀時間步隱藏狀態 $H_{t-1}\in_{}\mathbb{R}^{n*h}$。重置⻔ $H_t\in_{}\mathbb{R}^{n*h}$ 和更新⻔ $Z_t\in_{}\mathbb{R}^{n*h}$ 的計算如下：

\[R_t=\sigma(X_tW_{xr}+H_{t-1}W_{hr}+b_r)\]

\[Z_t=\sigma(X_tW_{xz}+H_{t-1}W_{hz}+b_z)\]

sigmoid函式可以將元素的值變換到0和1之間。因此，重置⻔ $R_t$ 和更新⻔ $Z_t$ 中每個元素的值域都是[0, 1]。

2.2 候選隱藏狀態

接下來，⻔控迴圈單元將計算候選隱藏狀態來輔助稍後的隱藏狀態計算。我們將當前時間步重置⻔的輸出與上⼀時間步隱藏狀態做按元素乘法（符號為⊙）。如果重置⻔中元素值接近0，那麼意味著重置對應隱藏狀態元素為0，即丟棄上⼀時間步的隱藏狀態。如果元素值接近1，那麼表⽰保留上⼀時間步的隱藏狀態。然後，將按元素乘法的結果與當前時間步的輸⼊連結，再通過含啟用函式tanh的全連線層計算出候選隱藏狀態，其所有元素的值域為[-1,1]。

具體來說，時間步 t 的候選隱藏狀態 $\tilde{H}\in_{}\mathbb{R}^{n*h}$ 的計算為：

\[\tilde{H}_t=tanh(X_tW_{xh}+(R_t⊙H_{t-1})W_{hh}+b_h)\]

從上⾯這個公式可以看出，重置⻔控制了上⼀時間步的隱藏狀態如何流⼊當前時間步的候選隱藏狀態。而上⼀時間步的隱藏狀態可能包含了時間序列截⾄上⼀時間步的全部歷史資訊。因此，重置⻔可以⽤來丟棄與預測⽆關的歷史資訊。

2.3 隱藏狀態

最後，時間步t的隱藏狀態 $H_t\in_{}\mathbb{R}^{n*h}$ 的計算使⽤當前時間步的更新⻔$Z_t$來對上⼀時間步的隱藏狀態 $H_{t-1}$ 和當前時間步的候選隱藏狀態 $\tilde{H}_t$ 做組合：

值得注意的是，更新⻔可以控制隱藏狀態應該如何被包含當前時間步資訊的候選隱藏狀態所更新，如上圖所⽰。假設更新⻔在時間步 $t^{′}到t(t^{′}<t)$ 之間⼀直近似1。那麼，在時間步 $t^{′}到t$ 間的輸⼊資訊⼏乎沒有流⼊時間步 t 的隱藏狀態$H_t$實際上，這可以看作是較早時刻的隱藏狀態 $H_{t^{′}-1}$ 直通過時間儲存並傳遞⾄當前時間步 t。這個設計可以應對迴圈神經⽹絡中的梯度衰減問題，並更好地捕捉時間序列中時間步距離較⼤的依賴關係。

我們對⻔控迴圈單元的設計稍作總結：

重置⻔有助於捕捉時間序列⾥短期的依賴關係；
更新⻔有助於捕捉時間序列⾥⻓期的依賴關係。

3. 程式碼實現GRU

MNIST--GRU實現

【機器學習通俗易懂系列文章】

4. 參考文獻

《動手學--深度學習》

作者：@mantchs

GitHub：https://github.com/NLP-LOVE/ML-NLP

歡迎大家加入討論！共同完善此專案！群號：【541954936】

相關推薦

三步理解--門控迴圈單元(GRU)，TensorFlow實現

1. 什麼是GRU 在迴圈神經⽹絡中的梯度計算⽅法中，我們發現，當時間步數較⼤或者時間步較小時，迴圈神經⽹絡的梯度較容易出現衰減或爆炸。雖然裁剪梯度可以應對梯度爆炸，但⽆法解決梯度衰減的問題。通常由於這個原因，迴圈神經⽹絡在實際中較難捕捉時間序列中時間步距離較⼤的依賴關係。門控迴圈神經⽹絡（gated re

超詳細的長短時記憶LSTM和門控迴圈單元GRU的反向傳播公式推導！

門控迴圈單元GRU 長短時記憶LSTM LSTM模型是用來解決simpleRNN對於長時期依賴問題（LongTerm Dependency），即通過之前提到的但是時間上較為久遠的內容進行後續的推理和判斷。LSTM的基本思

GRU（門控迴圈單元）--學習筆記

0、門控迴圈單元門控迴圈神經網路可以更好地捕捉時間序列中時間步距離較大的依賴關係，通過引入了門的概念，修改迴圈神經網路中隱藏狀態的計算方式，它包括重置門、更新門、候選隱藏狀態和隱藏狀態。重置門有助於捕捉時間序列裡短期的依賴關係。更新門有助於捕捉時間序列里長期的依賴關係。

序列模型（4）----門控迴圈單元（GRU）

一、GRU 其中， rt表示重置門，zt表示更新門。重置門決定是否將之前的狀態忘記。(作用相當於合併了 LSTM 中的遺忘門和傳入門）當rt趨於0的時候，前一個時刻的狀態資訊ht−1會被忘掉，隱藏狀態h^t會被重置為當前輸入的資訊。更新門決定是否要將隱藏狀態更新為新的狀態h^

簡單三步理解Shiro許可權驗證/登入

通過請求方式來判斷是初始請求還是驗證請求一、 @RequestMapping(value ="/login", method =RequestMethod.GET)publicString sho

三步搞定phpstudy虛擬域名配置，簡單方便！

第一步：在 C:\Windows\System32\drivers\etc下的hosts檔案中新增第二步：找到Apache 下的httpd.conf 檔案開啟,去掉前邊的# 第三步：在vhosts.conf 檔案中，配置以下內容這樣就配置成

三步學會reset和revert回滾，撤銷revert

revert $ git revert commit id $ git commit $ git push

技能｜三次簡化一張圖：一招理解LSTM/GRU門控機制

並不是 identity vol scan eof ref 參考學習小結作者 | 張皓引言 RNN是深度學習中用於處理時序數據的關鍵技術，目前已在自然語言處理，語音識別，視頻識別等領域取得重要突破，然而梯度消失現象制約著RNN的實際應用。LSTM和GRU是兩

太深了，梯度傳不下去，於是有了highway。幹脆連highway的參數都不要，直接變殘差，於是有了ResNet。強行穩定參數的均值和方差，於是有了BatchNorm。RNN梯度不穩定，於是加幾個通路和門控，於是有了LSTM。 LSTM簡化一下，有了GRU。

梯度直接 ID orm rop 發展均值 nor 噪聲請簡述神經網絡的發展史sigmoid會飽和，造成梯度消失。於是有了ReLU。ReLU負半軸是死區，造成梯度變0。於是有了LeakyReLU，PReLU。強調梯度和權值分布的穩定性，由此有了ELU，以及較新的SELU

三步輕松打造微信聊天機器人（附源碼）

exce 聊天 pos 平臺開發 weather ebo doctype amr 便在最近微信公眾平臺開發是熱門，我也跟風做了一個陪聊的公眾號。其實類似的自動回話程序早就有了，比如前一陣很火的小黃雞（還是小黃鴨來著？）。但盡管是跟風，也要體現一些不同。別

拖拽的效果第一步設置可拖拽的屬性 draggable="true" 綁定drag 事件第二步設置放置位置觸發的事件 dragover 第三步設置放置之後觸發的事件 dragover 下面請看代碼：

存儲 targe 觸發 get tex 一個 func ons *** (function(){ /*-------節點--------*/ var myimg = document.getElementById(‘myimg‘); var dropBox

Ceph對象存儲RGW對接企業級網盤OwnCloud三步走

網盤對象存儲 ceph 上篇文章我們把Ceph對象存儲搭建成功了，但是成功了之後我們怎麽用呢？下面我們本文就來講下Ceph對象存儲對接企業私有雲網盤OwnCloud。OwnCloud分為企業版和社區版，我們只說社區版，在這裏我就不多贅述了。那麽Ceph對接OwnCloud分三步走。第一：安裝

Andriod三步學會安卓自己定義視圖及其屬性

iss mark andriod clas style net tro popu 使用第一步：自己定義屬性第二步：自己定義控件解析屬性第三步：在XML文件裏使用自己定義控件和自己定義屬性 Andriod三步學會安卓自己定

【轉】使用ssh-keygen和ssh-copy-id三步實現SSH無密碼登錄

works message targe auth mes unix use ner not 【原】http://blog.chinaunix.net/uid-26284395-id-2949145.html ssh-keygen 產生公鑰與私鑰對. ssh-copy-id

python三步生成二維碼

qrcode生成二維碼本次使用python 2.7.13 下安裝qrcode模塊三步生成二維碼;qcrode官方說明https://pypi.python.org/pypi/qrcode/qcrode模塊通過pip install qrcode 安裝即可pip命令沒有請參照http://dyc2005.bl

部署AlwaysOn第三步：集群資源組的健康檢測和故障轉移

exe htm 有一個監控器 name 檢查 oar ges 包含資源組是由一個或多個資源組成的組，WSFC的故障轉移是以資源組為單位的，資源組中的資源是相互依賴的。一個資源所依賴的其他資源必須和該資源處於同一個資源組，跨資源組的依賴關系是不存在的。在任何時刻，每個資源

學會使用DNSPod，僅需三步

參考 style 互聯 cells 郵箱方法 cin lpad 主域學會使用DNSPod，僅需三步第一步：在DNSPod添加記錄 1、訪問 https://www.dnspod.cn網站，在DNSPod官網首頁的右上角，有【註冊】，如下圖所示，點擊

n個臺階，每次都可以走一步，走兩步，走三步，走到頂部一共有多少種可能

bsp return 頂部 htm pri 每次 lan href com 分析第一個臺階 1第二個臺階 11 2 //走兩次1步或者走1次兩步第三個臺階 111 12 21 3 第四個臺階 1111 112 121 211 22 13 31 思想：4階臺階

Centos搭建SVN服務器三步曲

啟動 htm log roo www. cat 信息訪問控制 lis 原文地址：http://www.blogjava.net/nkjava/archive/2011/08/29/357502.html #yum install subversion 判斷是否安裝成功#

IDEA tomcat三步實現熱部署

term idea 等等通過 size 配置 pos gmv 親測 IDEA tomcat三步實現熱部署添加Artifacts選項添加Artifacts選項，XXXwar 和 XXXwar exploded二選一，若要熱部署須選後者。設置tom