1. 程式人生 > >吳恩達Deeplearning.ai 第五課 Sequence Model 第一週------Long Short Term Memory(LSTM)

吳恩達Deeplearning.ai 第五課 Sequence Model 第一週------Long Short Term Memory(LSTM)

這一節主要講解了LSTM單元

這裡寫圖片描述

LSTM和GRU略有區別,可以說是一種更加通用的GRU模型

在LSTM中,c<t>不再等於a<t>,因此原來公式中的c<t-1>要改成a<t-1>,同時在LSTM中,也沒有了Γr這個門

但不同是,除了同樣保持了Γu這個門之外,還增加了Γf(forget gate)和Γo(output gate)兩個門。在原來c<t>的更新公式中,將(1-Γu)替換為Γf,並且在利用Γo來得到a<t>

LSTM的公式和單元結構:

這裡寫圖片描述

很多個這樣的單元組合起來就成了LSTM network:

這裡寫圖片描述

一些不同的版本:

這裡寫圖片描述

同樣,在這裡面,有時候也會在gate的計算中加入c<t-1>項,即變成Wu[a<t-1>, x<t>, c<t-1>]等,這被稱為peephole connection

但在這裡面c<t-1>的每個元素隻影響gate中對應的某個元素,而不會影響gate中其他位置的元素

LSTM和GRU的選擇:

1.關於二者孰優孰劣並沒有明確的論斷,在實際專案中可以進行嘗試。

2.GRU的優點是隻需要兩個門,計算量更小,當要搭建大型神經網路時可以更好得scaling(感覺這個詞只可意會不可翻譯)

3.LSTM的優點是有三個門,因此效率更高,但是計算量更大。
在現在的一些研究中,使用LSTM的會更多一些