本文是對Google2017年發表於NIPS上的論文"Attention is all you need"的閱讀筆記.

對於深度學習中NLP問題，通常是將句子分詞後，轉化詞向量序列，轉為seq2seq問題.

RNN方案

採用RNN模型，通常是遞迴地進行 $y_{t} =$

f ( y t − 1 ,

x t ) y_t=f(y_{t-1},x_t) $y_{t} = f (y_{t - 1}, x_{t})$ ，優點在於結構簡單，十分適合序列建模；缺點在於需要前一個輸出作為後一個的輸入參與運算，因此無法平行計算，速度很慢，且單向RNN只能獲取前向序列關係，需要採用雙向RNN才可以獲取完整的全域性資訊.
CNN方案

採用CNN模型，則是通過一個視窗(卷積核)來對整個序列進行遍歷， $y_t = f(x_{t-1},x_t,x_{t+1})$ 只能獲取到區域性資訊，需要層疊來增大感受野.

本文提出了一種Transformer注意力機制，完全替代了RNN、CNN.

$y_t = f(x_t,A,B)$

將A、B都取為X時，則稱為Self-Attention，即通過 $x_t$ 和整個 $X$ 進行關係運算最後得到 $y_t$ .

Attention層

Google給出瞭如下的Attention結構

Attention層.jpg

$Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$

其中， $d_k$ 時 $key$ 的維數， $d_v$ 是 $value$ 的維數， $Q\in R^{n\times d_k}, K\in R^{m\times d_k}， V\in R^{m\times d_v}$

當 $d_k$ 較小時，採用點積和加法注意力機制的效果時相同的，當 $d_k$ 較大時，點積的效果會下降很多，這是由於 $d_k$ 較大時，點積產生的值會很大導致 $softmax$ 陷入了飽和區，因此這裡除以了 $\sqrt{d_k}$ .

$Y_{self} = Attention(V,V,V)$
通過self-attention，可以無視詞之間距離直接計算遠距離的兩個詞的依賴關係，從而能學習到整個句子的內部結構，並且相當於進行了句法分析.

Multi-Head Attention

多頭注意力機制就是重複進行 $h$ 次(引數不共享)，即採用不同的引數進行 $h$ 次，捕獲不同子空間上的相關資訊，將最後的結果拼接起來，會產生更好的效果.
$MultiHead(Q,K,V) = Concat(head_1,\dots,head_h)W^O\\ where\ \ head_i = Attention(QW_i^Q,KW_i^K,VW_i^V)$

其中， $W_i^Q\in R^{d_{model}\times d_k}, W_i^K\in R^{d_{model}\times d_k}, W_i^V\in R^{d_{model}\times d_v}, W^O \in R^{hd_v\times d_{model}}$

《Attention Is All You Need》

Attention層

Multi-Head Attention

Paper Reading - Attention Is All You Need ( NIPS 2017 )

Attention is all you need及其在TTS中的應用Close to Human Quality TTS with Transformer和BERT

#論文閱讀#attention is all you need

Attention Is All You Need（Transformer）原理小結

Attention is all you need 論文詳解（轉）

[閱讀筆記]Attention Is All You Need - Transformer結構

pytorch求索(4): 跟著論文《 Attention is All You Need》一步一步實現Attention和Transformer

《Attention Is All You Need》

Attention is All You Need -- 淺析

Transformer【Attention is all you need】

bert之transformer（attention is all you need）

Attention is all you need閱讀筆記

[NIPS2017]Attention is all you need

一文讀懂「Attention is All You Need」| 附程式碼實現

釋出一年了，做NLP的還有沒看過這篇論文的嗎？--“Attention is all you need”

谷歌機器翻譯Attention is All You Need

論文閱讀-attention-is-all-you-need

Day3_attention is all you need 論文閱讀

All you need is attention（Tranformer） --學習筆記

Attention all you need

《Attention Is All You Need》

Attention層

Multi-Head Attention

相關推薦