長短時記憶網路(LSTM)基礎

往期回顧

在上一篇文章中，我們介紹了迴圈神經網路以及它的訓練演算法。我們也介紹了迴圈神經網路很難訓練的原因，這導致了它在實際應用中，很難處理長距離的依賴。在本文中，我們將介紹一種改進之後的迴圈神經網路：長短時記憶網路(Long Short Term Memory Network, LSTM)，它成功的解決了原始迴圈神經網路的缺陷，成為當前最流行的RNN，在語音識別、圖片描述、自然語言處理等許多領域中成功應用。但不幸的一面是，LSTM的結構很複雜，因此，我們需要花上一些力氣，才能把LSTM以及它的訓練演算法弄明白。在搞清楚LSTM之後，我們再介紹一種LSTM的變體：GRU (Gated Recurrent Unit)

。它的結構比LSTM簡單，而效果卻和LSTM一樣好，因此，它正在逐漸流行起來。最後，我們仍然會動手實現一個LSTM。

長短時記憶網路是啥

我們首先了解一下長短時記憶網路產生的背景。回顧一下零基礎入門深度學習(5) - 迴圈神經網路中推導的，誤差項沿時間反向傳播的公式：

δTk=δTt∏i=kt−1diag[f′(neti)]W(1)

我們可以根據下面的不等式，來獲取δTk的模的上界（模可以看做對δTk中每一項值的大小的度量）：

∥δTk∥⩽⩽∥δTt∥∏i=kt−1∥diag[f′(neti)]∥∥W∥∥δTt∥(βfβW)t−k(2)(3)

我們可以看到，誤差項δ從t時刻傳遞到k時刻，其值的上界是βfβw的指數函式。βfβw分別是對角矩陣diag[f′(neti)]和矩陣W模的上界。顯然，除非βfβw乘積的值位於1附近，否則，當t-k很大時（也就是誤差傳遞很多個時刻時），整個式子的值就會變得極小（當

長短時記憶網路(LSTM)基礎

往期回顧

長短時記憶網路是啥

長短時記憶網路(LSTM)基礎

長短時記憶網路LSTM

基於PyTorch的LSTM長短時記憶網路實現MNIST手寫數字

RNN學習筆記（一）：長短時記憶網路（LSTM）

機器學習與Tensorflow（5）——迴圈神經網路、長短時記憶網路

雙向長短時記憶迴圈神經網路詳解（Bi-directional LSTM RNN）

3-1長短時記憶神經網路(LSTM)--簡單程式碼實現

序列模型（3）---LSTM（長短時記憶）

超詳細的長短時記憶LSTM和門控迴圈單元GRU的反向傳播公式推導！

Keras中長短期記憶網路LSTM的5步生命週期

長短期記憶網路LSTM(matlab)

關於長短時記憶的一個小感想

Long-Short Term Memory(長短時記憶模型)

009-LSTM網路-長短記憶網路

長短期記憶網路（LSTM）的基礎知識、邏輯結構、實際物理結構

雙向長短記憶網路（BiLSTM）

長短期記憶（LSTM）系列_LSTM的建模方法（2）——如何堆疊多層LSTM網路

長短期記憶（LSTM）系列_LSTM的建模方法（1）——生成式LSTM網路,Encoder-Decoder LSTM網路,CNN LSTM（LRCN）網路建模介紹

長短期記憶（LSTM）系列_LSTM的資料準備（4）——如何歸一化標準化長短期記憶網路的資料

長短期記憶（LSTM）系列_LSTM的資料準備（1）——如何重塑Keras中長短期記憶體網路的輸入資料

長短時記憶網路(LSTM)基礎

往期回顧

長短時記憶網路是啥

相關推薦