【轉】人人都能看懂的LSTM

阿新 • • 發佈：2019-02-05

轉自：https://zhuanlan.zhihu.com/p/32085405

這是在看了臺大李巨集毅教授的深度學習視訊之後的一點總結和感想。看完介紹的第一部分RNN尤其LSTM的介紹之後，整個人醍醐灌頂。本篇部落格就是對視訊的一些記錄加上了一些個人的思考。

0. 從RNN說起

迴圈神經網路（Recurrent Neural Network，RNN）是一種用於處理序列資料的神經網路。相比一般的神經網路來說，他能夠處理序列變化的資料。比如某個單詞的意思會因為上文提到的內容不同而有不同的含義，RNN就能夠很好地解決這類問題。

1. 普通RNN

先簡單介紹一下一般的RNN。

其主要形式如下圖所示（圖片均來自臺大李巨集毅教授的PPT）：

這裡：

$x$ 為當前狀態下資料的輸入， $h$ 表示接收到的上一個節點的輸入。

$y$ 為當前節點狀態下的輸出，而 $h'$ 為傳遞到下一個節點的輸出。

通過上圖的公式可以看到，輸出 h' 與 x 和 h 的值都相關。

而 y 則常常使用 h' 投入到一個線性層（主要是進行維度對映）然後使用softmax進行分類得到需要的資料。

對這裡的y如何通過 h' 計算得到往往看具體模型的使用方式。

通過序列形式的輸入，我們能夠得到如下形式的RNN。

2. LSTM

2.1 什麼是LSTM

長短期記憶（Long short-term memory, LSTM）是一種特殊的RNN，主要是為了解決長序列訓練過程中的梯度消失和梯度爆炸問題。簡單來說，就是相比普通的RNN，LSTM能夠在更長的序列中有更好的表現。

LSTM結構（圖右）和普通RNN的主要輸入輸出區別如下所示。

相比RNN只有一個傳遞狀態 $h^t$ ，LSTM有兩個傳輸狀態，一個 $c^t$ （cell state），和一個 $h^t$ （hidden state）。（Tips：RNN中的 $h^t$ 對於LSTM中的 $c^t$ ）

其中對於傳遞下去的 $c^t$ 改變得很慢，通常輸出的 $c^t$ 是上一個狀態傳過來的 $c^{t-1}$ 加上一些數值。

而 $h^t$ 則在不同節點下往往會有很大的區別。

2.2 深入LSTM結構

下面具體對LSTM的內部結構來進行剖析。

首先使用LSTM的當前輸入 $x^t$ 和上一個狀態傳遞下來的 $h^{t-1}$ 拼接訓練得到四個狀態。

其中， $z^f$ ， $z^i$ ， $z^o$ 是由拼接向量乘以權重矩陣之後，再通過一個 $sigmoid$ 啟用函式轉換成0到1之間的數值，來作為一種門控狀態。而 $z$

則是將結果通過一個 $tanh$ 啟用函式將轉換成-1到1之間的值（這裡使用 $tanh$ 是因為這裡是將其做為輸入資料，而不是門控訊號）。

下面開始進一步介紹這四個狀態在LSTM內部的使用。（敲黑板）

$\odot$ 是Hadamard Product，也就是操作矩陣中對應的元素相乘，因此要求兩個相乘矩陣是同型的。 $\oplus$ 則代表進行矩陣加法。

LSTM內部主要有三個階段：

1. 忘記階段。這個階段主要是對上一個節點傳進來的輸入進行選擇性忘記。簡單來說就是會 “忘記不重要的，記住重要的”。

具體來說是通過計算得到的 $z^f$ （f表示forget）來作為忘記門控，來控制上一個狀態的 $c^{t-1}$ 哪些需要留哪些需要忘。

2. 選擇記憶階段。這個階段將這個階段的輸入有選擇性地進行“記憶”。主要是會對輸入 $x^t$ 進行選擇記憶。哪些重要則著重記錄下來，哪些不重要，則少記一些。當前的輸入內容由前面計算得到的 $z$ 表示。而選擇的門控訊號則是由 $z^i$ （i代表information）來進行控制。

將上面兩步得到的結果相加，即可得到傳輸給下一個狀態的 $c^t$ 。也就是上圖中的第一個公式。

3. 輸出階段。這個階段將決定哪些將會被當成當前狀態的輸出。主要是通過 $z^o$ 來進行控制的。並且還對上一階段得到的 $c^o$ 進行了放縮（通過一個tanh啟用函式進行變化）。

與普通RNN類似，輸出 $y^t$ 往往最終也是通過 $h^t$ 變化得到。

3. 總結

以上，就是LSTM的內部結構。通過門控狀態來控制傳輸狀態，記住需要長時間記憶的，忘記不重要的資訊；而不像普通的RNN那樣只能夠“呆萌”地僅有一種記憶疊加方式。對很多需要“長期記憶”的任務來說，尤其好用。

但也因為引入了很多內容，導致引數變多，也使得訓練難度加大了很多。因此很多時候我們往往會使用效果和LSTM相當但引數更少的GRU來構建大訓練量的模型。

對於GRU我在下面的文章中進行了相關介紹，有興趣的同學可以進去看看。

【轉】人人都能看懂的LSTM

轉自：https://zhuanlan.zhihu.com/p/32085405這是在看了臺大李巨集毅教授的深度學習視訊之後的一點總結和感想。看完介紹的第一部分RNN尤其LSTM的介紹之後，整個人醍醐灌頂。本篇部落格就是對視訊的一些記錄加上了一些個人的思考。0. 從RNN說起

人人都能看懂的雲端計算知識科普

雲端計算的本質就是社會分工，社會分工所產生的價值雲端計算都能產生。社會分工中產生的問題，雲端計算也都會面對。雙十一期間，我想很多小夥伴都被阿里雲的促銷活動刷屏了，大家組隊組團，可以得到較為便宜的阿里雲伺服器。另外，Docker 也紅得發紫，與之對應的 DevOps 和 NoOps 持續高

人人都能看懂的機器學習！3個案例詳解聚類、迴歸、分類演算法

導讀：機器是怎樣學習的，都學到了什麼？人類又是怎樣教會機器學習的？本文通過案例給你講清楚各類演算

大白話聊聊微服務——人人都能看懂的演進過程

這篇部落格的本意是希望看到這篇文章的讀者能夠很輕鬆的理解我想表達的意思。但程式向的分享經常會不經意間就貼上了程式碼，很可能就會讓人看的很懵。而且我認為分享一個東西，只有對方真正明白了其中的邏輯，才是有意義的分享。所以接下來我會嘗試用大家都能理解的語言來聊一聊”微服務“。【寫在前面】那麼，什麼是微服務呢？你

【大家都能看懂的演算法】1005 繼續(3n+1)猜想

1005 繼續(3n+1)猜想 (25) 卡拉茲(Callatz)猜想已經在1001中給出了描述。在這個題目裡，情況稍微有些複雜。當我們驗證卡拉茲猜想的時候，為了避免重複計算，可以記錄下遞推過程中遇到的每一個數。例如對n=3進行驗證的時候，我們需要計算3、

【大家都能看懂的演算法】1001 害死人不償命的(3n+1)猜想

很久不見，又回來了，這裡結合PAT測試題介紹一下思路 1001 害死人不償命的(3n+1)猜想 (15)（15 point(s)）卡拉茲(Callatz)猜想：對任何一個自然數n，如果它是偶數，那麼把它砍掉一半；如果它是奇數，那麼把(3n+

Unity 打包發布Android新手教學（小白都能看懂的教學） [轉]

配置環境但是選項 lan 點擊輸入 ase 插件 pan 版權聲明：本文為Aries原創文章，轉載請標明出處。如有不足之處歡迎提出意見或建議，聯系QQ531193915 掃碼關註微信公眾號，獲取最新資源最近在Unity的有些交流群裏，

60 多年前，一群小白程式設計師扒了一個俄羅斯的開源框架--小白都能看懂的作業系統Communix的歷史(轉)

該系統程序按許可權等級分為五類，Core process（核心程序）, Privilege process（特權程序）, Monitor process（監控程序）, Normal process（普通程序）和Vulnerable process（弱勢程序）. Core process擁有至高無上的權利，控

【轉】Linux下查看進程打開的文件句柄數

art blog targe 時間 ase 響應時間 nbsp lin repl ---查看系統默認的最大文件句柄數，系統默認是1024 # ulimit -n 1024 ----查看當前進程打開了多少句柄數 # lsof -n|awk ‘{print $2}‘|sort

小學生都能看懂的FFT！！！

long 不同 def 如果能裏的文件補充運算其余小學生都能看懂的FFT！！！前言在創新實踐重心偷偷看了一天FFT資料後，我終於看懂了一點。為了給大家提供一份簡單易懂的學習資料，同時也方便自己以後復習，我決定動手寫這份學習筆記。食用指南：本篇受眾：如

【轉】Android性能優化-過度繪制解決方案

裏的 watermark == ++ 深度 getc 像素多次但是轉載請註明出處：http://blog.csdn.net/a740169405/article/details/53896497 過度繪制：屏幕上某一像素點在一幀中被重復繪制多次，就是過度繪制。

入門 | 這是一份文科生都能看懂的線性代數簡介

QQ JD == div OS ket 簡介 http fff https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650740185&idx=2&sn=1da15ae38b8338dcc1c

如何讓瀏覽器支持ES6語法，步驟詳細到小學生都能看懂！

target 2-2 完成還需 tps next bubuko roc AS 為什麽ES6會有兼容性問題？由於廣大用戶使用的瀏覽器版本在發布的時候也許早於ES6的定稿和發布，而到了今天，我們在編程中如果使用了ES6的新特性，瀏覽器若沒有更新版本，或者新版本中沒有對E

【轉】前端性能優化

查詢請求劃分 ron 報文頭我們 css 這一緩存頁面加載速度影響因素——前端性能　　前端性能關鍵呈現路徑所涉及的步驟：　　　　　　1 . DOM：瀏覽器在解析HTML時，會以遞增的方式為HTML標記生成一種名為文檔對象模型（DOM）的樹狀模型，　　　　　

福利|人人都能讀懂的極簡掌上區塊鏈圖書，免費送還包郵，手慢無

編輯 | kou 從江湖故事到社會共識，區塊鏈是一個關乎信任的偉大技術實驗！福利！本文節選自《極簡區塊鏈》，文末免費送書（+速查小手冊）5本。看正文之前，先聽聽網易有道CEO周楓是如何評價這本書

兄弟，用大白話告訴你小白都能看懂的Hadoop架構原理

歡迎關注個人微訊號：石杉的架構筆記（id：shishan100）週一至週五早8點半！精品技術文章準時送上！往期文章 1、拜託！面試請不要再問我Spring Cloud底層原理 2、【雙11狂歡的背後】微服務註冊中心如何承載大型系統的千萬級訪問？ 3、【效能優化之道】每秒上萬併發下的Spring

分散式系統關注點——99%的人都能看懂的「熔斷」以及最佳實踐

如果這是第二次看到我的文章，歡迎右側掃碼訂閱我喲~ > 本文長度為3319字，建議閱讀9分鐘。閱讀目錄熔斷是什麼熔斷怎麼做做熔斷的最佳實踐總結

分布式系統關註點——99%的人都能看懂的「熔斷」以及最佳實踐

十年 size 反向 ESS 新版本 spa src 完整性地方原文:分布式系統關註點——99%的人都能看懂的「熔斷」以及最佳實踐如果這是第二次看到我的文章，歡迎右側掃碼訂閱我喲~ > 本文長度為3319字，建議閱讀9分鐘。閱讀目錄

這是我見過最完整的Python語法和實戰清單！是個人都能看懂學會！

基礎語法 Python 是一門高階、動態型別的多正規化程式語言；定義 Python 檔案的時候我們往往會先宣告檔案編碼方式: # 指定指令碼呼叫方式 #!/usr/bin/env python # 配置 utf-8 編碼 # -*- coding: utf-8 -*- # 配置其他編碼 #

超詳細，新手都能看懂！使用SpringBoot+Dubbo 搭建一個簡單的分散式服務

Github 地址：https://github.com/Snailclimb/springboot-integration-examples ，歡迎各位 Star。目錄：使用 SpringBoot+Dubbo 搭建一個簡單分散式服務實戰之前，先來看幾個重要的概念