深度學習和自然語言處理中的attention和memory機制

阿新 • • 發佈：2019-01-12

Attention機制是最近深度學習的一個趨勢。在一次採訪中，OpenAI的研究總監Ilya Sutskever說attention機制是最令人興奮的進步之一，而且已經廣為使用。聽起來激動人心吧。但attention機制究竟是什麼呢？

神經網路裡的attention機制是（非常）鬆散地基於人類的視覺注意機制。人類的視覺注意機制已經被充分地研究過了，而且提出了多個不同的模型，所有的模型歸根結底都是按照“高解析度”聚焦在圖片的某個特定區域並以“低解析度”感知影象的周邊區域的模式，然後不斷地調整聚焦點。

attention解決了什麼問題？

我們以神經機器翻譯（Neural Machine Translation，NMT）為例，來理解attention能為我們做什麼。傳統的機器翻譯系統通常依賴於基於文字統計特性的複雜特徵工程。簡而言之，這些系統非常複雜，需要投入大量工程來搭建它們。神經機器翻譯系統則有所區別。在NMT系統裡，我們把一句話的意思對映為一個固定長度的表徵向量，然後基於此向量生成翻譯文字。由於不依賴於類似n-gram計數，而是捕捉文字更高層次的含義，NMT系統生成的翻譯語句比大多數其它方法都要好。更重要的是，NMT系統的搭建和訓練過程更方便，它們不需要任何手工的特徵工程。事實上，TensorFlow只需要幾百行程式碼就能實現一個

簡單版本。

大多數NMT系統使用遞迴神經網路（RNN）將源語句（比如，一句德語）編碼為一個向量，然後同樣用RNN將其解碼為英語句子。

圖片描述

如上圖所示，“Echt”、“Dicke”和“Kiste”依次輸入到編碼器中，一個特殊字元標誌輸入結束（圖中未顯示），然後解碼器開始生成翻譯的語句。解碼器持續逐詞地生成，直到生成句子的終止符。這裡的h向量表示了編碼器的內部狀態。

如果你仔細觀察，你會發現解碼器在翻譯時僅依賴編碼器最後的隱藏狀態（上圖的h3）。h3向量必須對源句子的所有內容都進行編碼。它必須充分地捕捉含義。用專業術語來說，這個向量就是一個sentence embedding。事實上，如果你用PCA或者t-SNE降維之後將不同句子的embedding繪製出來，

你將看到語義相近的句子彼此很接近。真是令人覺得神奇。

然而，我們似乎無法把一個很長的句子所包含的所有資訊編碼成一個向量，然後解碼器僅根據這個向量生成完美的翻譯，這種假設顯得不可理喻。我們假設原文句子長度有50個單詞。英文譯文的第一個單詞可能與原文的第一個單詞高度相關。但這意味著解碼器必須考慮50步之前的資訊，而且那段資訊需要以某種形式已經被編入向量中。眾所周知，RNN在處理這類長距離依賴關係時會出現問題。理論上，LSTM這類結構能夠處理這個問題，但在實踐中，長距離依賴關係仍舊是個問題。例如，研究人員發現將原文倒序（將其倒序輸入編碼器）產生了顯著改善的結果，因為從解碼器到編碼器對應部分的路徑被縮短了。同樣，

兩次輸入同一個序列似乎也有助於網路更好地記憶。

我認為倒序句子這種方法屬於“hack”手段。它屬於被實踐證明有效的方法，而不是有理論依據的解決方法。大多數翻譯的基準都是用法語、德語等語種，它們和英語非常相似（即使漢語的詞序與英語也極其相似）。但是有些語種（像日語）句子的最後一個詞語在英語譯文中對第一個詞語有高度預言性。那麼，倒序輸入將使得結果更糟糕。還有其它辦法嗎？那就是Attention機制。

有了Attention機制，我們不再需要將完整的原文句子編碼為固定長度的向量。相反，我們允許解碼器在每一步輸出時“參與（attend）”到原文的不同部分。尤為重要的是我們讓模型根據輸入的句子以及已經產生的內容來決定參與什麼。因此，在形式非常相似的語種之間（如英語與德語），解碼器可能會選擇順序地參與事情。生成第一個英語詞語時參與原文的第一個詞語，以此類推。這正是論文Neural Machine Translation by Jointly Learning to Align and Translate的成果，如下圖所示：

圖片描述

y’是編碼器生成的譯文詞語，x’是原文的詞語。上圖使用了雙向遞迴網路，但這並不是重點，你先忽略反向的路徑吧。重點在於現在每個解碼器輸出的詞語yt取決於所有輸入狀態的一個權重組合，而不只是最後一個狀態。a’是決定每個輸入狀態對輸出狀態的權重貢獻。因此，如果a3,2的值很大，這意味著解碼器在生成譯文的第三個詞語時，會更關注與原文句子的第二個狀態。a’求和的結果通常歸一化到1（因此它是輸入狀態的一個分佈）。

Attention機制的一個主要優勢是它讓我們能夠解釋並可視化整個模型。舉個例子，通過對attention權重矩陣a的視覺化，我們能夠理解模型翻譯的過程。

圖片描述

我們注意到當從法語譯為英語時，網路模型順序地關注每個輸入狀態，但有時輸出一個詞語時會關注兩個原文的詞語，比如將“la Syrie”翻譯為“Syria”。

Attention的成本

如果再仔細觀察attention的等式，我們會發現attention機制有一定的成本。我們需要為每個輸入輸出組合分別計算attention值。50個單詞的輸入序列和50個單詞的輸出序列需要計算2500個attention值。這還不算太糟糕，但如果你做字元級別的計算，而且字元序列長達幾百個字元，那麼attention機制將會變得代價昂貴。

其實它和我們的直覺恰恰相反。人類的注意力是節省計算資源的。當專注於一件事時，我們能忽略其它事情。但這並不是我們上一個模型的作法。我們在決定專注於某個方面之前先仔細觀察每件事。直觀地說，這相當於輸出一個翻譯後的詞語，然後遍歷記憶裡所有文字再決定下一個輸出什麼。這似乎是一種浪費，而且沒人會這麼幹。事實上，它更類似於記憶體訪問，不是attention，在我看來有點兒用詞不當（下文會繼續討論）。不過，這並沒有阻礙attention機制的流行傳播。

attention的另一種替代方法是用強化學習（Reinforcement Learning）來預測關注點的大概位置。這聽起來更像是人的注意力，這也是Recurrent Models of Visual Attention文中的作法。然而，強化學習模型不能用反向傳播演算法端到端訓練，因此它在NLP的應用不是很廣泛。

機器翻譯之外領域的Attention機制

到目前為止，我們已經見識了attention在機器翻譯領域的應用。但上述的attention機制同樣也能應用於遞迴模型。讓我們再來看幾個例子。

在Show，Attend and Tell一文中，作者將attention機制應用於生成圖片的描述。他們用卷積神經網路來“編碼”圖片，並用一個遞迴神經網路模型和attention機制來生成描述。通過對attention權重值的視覺化（就如之前機器翻譯的例子一樣），在生成詞語的同時我們能解釋模型正在關注哪個部分。

圖片描述

在Grammar as a Foreign Language論文中，作者用遞迴神經網路模型和attention機制的來生成語法分析樹。視覺化的attention矩陣讓人深入地瞭解網路模型如何生成這些樹：

圖片描述

在Teaching Machines to Read and Comprehend論文裡，作者利用RNN模型讀入文字，先讀入一個（合成的）問題，然後產生一個答案。通過將attention視覺化，我們可以看到網路模型在試圖尋找問題答案的時候關注哪些方面：

圖片描述

ATTENTION = (FUZZY) MEMORY?

attention機制解決的根本問題是允許網路返回到輸入序列，而不是把所有資訊編碼成固定長度的向量。正如我在上面提到，我認為使用attention有點兒用詞不當。換句話說，attention機制只是簡單地讓網路模型訪問它的內部儲存器，也就是編碼器的隱藏狀態。在這種解釋中，網路選擇從記憶中檢索東西，而不是選擇“注意”什麼。不同於典型的記憶體，這裡的記憶體訪問機制是彈性的，也就是說模型檢索到的是所有記憶體位置的加權組合，而不是某個獨立離散位置的值。彈性的記憶體訪問機制好處在於我們可以很容易地用反向傳播演算法端到端地訓練網路模型（雖然有non-fuzzy的方法，其中的梯度使用抽樣方法計算，而不是反向傳播）。

記憶機制本身的歷史更久遠。標準遞迴網路模型的隱藏狀態本身就是一種內部記憶。RNN由於存在梯度消失問題而無法從長距離依賴學習。LSTM通過門控機制對此做了改善，它允許顯式的記憶刪除和更新。

更復雜的記憶體結構的趨勢還在延續。End-To-End Memory Networks一文中的方法允許網路在輸出內容前多次讀入相同的序列，每一步都更新記憶內容。舉個例子，輸入一個故事，在經過多步推理之後回答一個問題。然而，當網路引數的權重以某種特定方式被繫結，端到端記憶網路的記憶機制就和這裡所介紹的attention機制一樣了，只是它是多跳的記憶（因為它試圖整合多個句子資訊）。

神經圖靈機器使用類似的記憶機制，但有一個更復雜的解決方案，它同時基於內容（如在這裡）和位置，使網路模型通過學習模式來執行簡單的計算機程式，比如排序演算法。

譯者簡介：趙屹華，計算廣告工程師@搜狗，前生物醫學工程師，關注推薦演算法、機器學習領域。

深度學習和自然語言處理中的attention和memory機制

attention解決了什麼問題？

Attention的成本

機器翻譯之外領域的Attention機制

ATTENTION = (FUZZY) MEMORY?

用深度學習解決自然語言處理中的7大問題，文字分類、語言建模、機器翻譯

深度學習在自然語言處理中的應用（一）

深度學習在自然語言處理中的應用綜述

深度學習在自然語言處理中的應用: 集智俱樂部活動筆記

深度學習和自然語言處理中的attention和memory機制

深度學習和自然語言處理的應用和脈絡1-基礎

網頁和自然語言處理中的字符問題（半角和全角）

自然語言處理中的自注意力機制（Self-attention Mechanism）

網頁和自然語言處理中的字元問題（半形和全形）

如何用深度學習做自然語言處理？這裡有份最佳實踐清單

深度學習與自然語言處理(7)_斯坦福cs224d 語言模型，RNN，LSTM與GRU

斯坦福cs224d（深度學習在自然語言處理上的應用）Lecture 2 note2

深度學習與自然語言處理

深度學習與自然語言處理(8)_斯坦福cs224d RNN，MV-RNN與RNTN

深度學習與自然語言處理(3)_斯坦福cs224d Lecture 3

深度學習與自然語言處理（一）

深度學習與自然語言處理（三）——深度學習運用到自然語言處理領域的成功案例

《基於深度學習的自然語言處理》中文PDF+英文PDF+學習分析

車萬翔《基於深度學習的自然語言處理》中英文PDF+塗銘《Python自然語言處理實戰核心技術與算法》PDF及代碼

自然語言處理中傳統詞向量表示VS深度學習語言模型（三）：word2vec詞向量

深度學習和自然語言處理中的attention和memory機制

attention解決了什麼問題？

Attention的成本

機器翻譯之外領域的Attention機制

ATTENTION = (FUZZY) MEMORY?

相關推薦