NLP 相關演算法 LSTM 演算法流程

阿新 • • 發佈：2018-11-13

LSTM希望通過改進的RNN內部計算方法來應對普通RNN經常面臨的梯度消失和梯度爆炸。基本思路是通過改變逆向傳播求導時單純的偏導連乘關係，從而避免較小的sigmoid或relu啟用函式偏導連乘現象。
RNN網路unfold以後，將按時間t展開為若干個結構相同的計算單元，每個計算單元在利用當前時間的輸入以外，還需要之前時間的輸出。以下將展示每個計算單元的內部計算流程，假設當前的計算單元對應時間為t。
每個計算單元內由input gate，forget gate和output gate三個“閘門”結構依先後順序構成。在每一個gate內部，相關的輸入都匹配專門的權重矩陣，各個輸入相加後都將匹配專門的bias向量，總體求和後需要通過專門的啟用函式進行處理形成輸出。設定當期(即t期)輸入為 $x$

t x_t

x_{t}

，前一期輸出為

o_{t-1}

。

input gate

input gate實際上是類似於一個filter，即用sigmoid啟用函式的啟用值過濾或加權實際的input。實際的input為：
$i = t a n$

h ( x t W i x + o t − 1 W i o + b i ) i=tanh(x_t W_{i}^x+o_{t-1} W_{i}^o+b_{i})

i = t a n h (x_{t} W_{i}^{x} + o_{t - 1} W_{i}^{o} + b_{i})

sigmoid啟用函式filter為：

IG=sigmoid(x_t W_{IG}^x+o_{t-1} W_{IG}^o+b_{IG})

input gate層的最終輸出就是

I

與

IG

的點乘，即元素層面的對應相乘。

I_{out}=i \circ IG

inner state $s_t$

LSTM較於普通RNN網路增加了一個內部狀態量 $s_t$ . 記憶的控制就是通過forget gate對於 $s_{t-1}$ 的過濾而發揮作用。

forget gate

與input gate相同，forget gate也是一個sigmoid啟用函式啟用值形成的filter，用於對上一期的狀態量 $s_{t-1}$ 進行過濾。
$FG=sigmoid(x_t W_{FG}^x+o_{t-1} W_{FG}^o+b_{FG})$
當期的狀態量 $s_t$ 就是input gate層的輸出值與IG過濾後的上一期狀態量的簡單相加的結果。注意這裡的操作僅為簡單的相加，並沒有加入權重，不存在相乘，也沒有使用新的啟用函式，這一步驟是消除RNN反向傳播網路梯度消失或梯度爆炸的關鍵：
$s_t=s_{t-1} \circ FG + I_{out}$

output gate

同之前的兩個gate類似，output gate也是一個sigmoid啟用函式filter，對當期的狀態量 $s_t$ 進行過濾。 $s_t$ 在接受過濾前，先使用tanh啟用函式進行區間壓縮：
$OG=sigmoid(x_t W_{OG}^x+o_{t-1} W_{OG}^o+b_{OG})$
以此對壓縮後的 $s_t$ 進行過濾，形成最終當期計算單元的最終輸出：
$o_t=tanh(s_t) \circ OG$
$o_t$ 和 $s_t$ 將可用於下一期(t+1)計算單元的內部計算。

NLP 相關演算法 LSTM 演算法流程

input gate

inner state $s_t$

forget gate

output gate

NLP 相關演算法 LSTM 演算法流程

NLP 相關演算法 Word2Vec embedding

【python 走進NLP】兩種高效過濾敏感詞演算法--DFA演算法和AC自動機演算法

策略產品經理--NLP技術基礎與演算法模型

kaggle 經典案例掌握機器學習演算法的通用流程

【NLP】分詞演算法綜述

自然語言處理（NLP）- HMM+VITERBI演算法實現詞性標註（解碼問題）（動態規劃）（Python實現）

[NLP技術]關鍵詞提取演算法實現

03 EM演算法 - EM演算法流程和直觀案例

[NLP技術]關鍵詞提取演算法-TextRank

NLP——Kmeans聚類演算法簡單實現

如何用Java實現NLP的經典關鍵詞演算法 TF-IDF

NLP: 中文分詞演算法---交集歧義檢測 (cross ambiguity detect)

分類演算法的常規流程？

【機器學習】K-Means演算法的原理流程、程式碼實現及優缺點

C語言線性單鏈表相關函式和演算法的基本實現

NLP與KNN(鄰近演算法)自然語言處理

BP神經網路演算法學習---處理流程（虛擬碼）

13、【演算法】演算法複雜度分析

演算法分析演算法設計基礎

NLP 相關演算法 LSTM 演算法流程

input gate

inner state s t s_t st​

forget gate

output gate

相關推薦

inner state $s_t$