注意力模型深度綜述:注意力型別和網路架構都有什麼
極市正在推出 CVPR2019的專題直播分享會 , 邀請CVPR2019的論文作者進行線上直播, 分享優秀的科研工作和技術乾貨,也歡迎各位小夥伴自薦或推薦優秀的CVPR論文作者到極市進行技術分享~
本週四(5月9日)晚, 中科院自動化所模式識別國家重點實驗室的張志鵬 ,將為我們分享
基於siamese網路的單目標跟蹤 (CVPR2019 Oral) ,公眾號回覆 “41” 即可獲取直播詳情。
注意力模型已成為神經網路中的一種重要概念,並在很多應用領域展開了研究。本文提出了一種分類方法,對這些研究進行了全面有序地綜述,並對注意力模型在一些應用領域產生的重大影響進行了討論。
作者 | Sneha Chaudhari 等
來源 | 機器之心
注意力背後的直覺可以用人類的生物系統來進行最好的解釋。例如,我們的視覺處理系統往往會選擇性地聚焦於影象的某些部分上,而忽略其它不相關的資訊,從而有助於我們感知。類似地,在涉及語言、語音或視覺的一些問題中,輸入的某些部分相比其它部分可能更相關。通過讓模型僅動態地關注有助於有效執行手頭任務的部分輸入,注意力模型引入了這種相關性概念。
圖 1 顯示了使用注意力模型對 Yelp 評論進行情感分類的例子 [Yang et al., 2016]。在這個例子中,注意力模型知道了在五個句子中,第一句和第三句更相關。
圖 1:用注意力建模對 Yelp 評論進行分類的例子。
此外,在這些句子中,單詞 delicious 和 amazing 在決定評論的情感方面更有意義。
神經網路中建模注意力的快速發展主要源於三個方面。首先,這些模型對多個任務(如機器翻譯、問答、情感分析、詞性標註、句法解析和對話系統)來說是當前最佳的模型;其次,除了提高主要任務的效能,它們還有一些其它優勢。它們還被廣泛用於提高神經網路的可解釋性,無法解釋的神經網路被視為黑箱模型;第三,它們還有助於克服迴圈神經網路的一些挑戰,如隨著輸入長度的增加而導致的效能下降,以及輸入的序列處理所帶來的計算效率低下。因此,本文旨在對注意力模型進行簡短而又全面的綜述。
論文:An Attentive Survey of Attention Models
論文地址:https://arxiv.org/abs/1904.02874
注意力模型已成為神經網路中的一種重要概念,並在各種應用領域進行了研究。本次綜述全面有序地概述了建模注意力方面的發展。研究者特別提出了一種分類法,該方法將現有技術歸併到連貫類別中。研究者對各種引入了注意力的神經架構進行了回顧,還展示了注意力如何提高神經模型的可解釋性。最後,研究者討論了建模注意力起到重大影響的一些應用。希望本次綜述可以簡明扼要地介紹注意力模型,為從業者提供指導,同時為其應用開發可行的方法。
注意力模型
注意力模型意在通過讓解碼器訪問完整的編碼輸入序列 {h_1, h_2, ..., h_T } 來減輕這些挑戰。中心思想是在輸入序列中引入注意力權重α,來對具有相關資訊的位置集合進行優先順序排序,以生成下一個輸出 token。
圖 2:編碼器-解碼器架構:(a) 為傳統結構,(b) 為帶注意力機制的結構。
具有注意力的相應編碼器-解碼器架構如圖 2(b) 所示。架構中的注意力模組負責自動學習注意力權重α_ij,該權重會捕獲 h_i(編碼器隱狀態,被稱之為候選狀態)和 s_j(解碼器隱狀態,被稱之為查詢狀態)之間的相關性。這些注意力權重之後會被用於構建語境向量 c,而該向量被作為輸入傳遞給解碼器。
研究者將注意力分為四大類,並闡明瞭每一大類中不同型別的注意力,如下表所示(表 1)。
表 1:各大類別中的注意力型別。
為了理解這一概念,研究者提供了一系列重要的技術論文,並在表 2 中詳細說明了本文方法所用到的多種注意力型別。
表 2:有關注意力模型技術方法的重要論文。『-』表示「不適用」。
注意力網路架構
在這一部分,研究者描述了與注意力相關的三種顯著的神經架構:(1)編碼器-解碼器框架;(2)將注意力擴充套件至單個輸入序列之外的記憶網路;(3)利用注意力規避迴圈模型序列處理元件的架構。
編碼器-解碼器
注意力最早用作基於 RNN 的編碼器-解碼器框架的一部分,以編碼較長的輸入語句。一個有趣的事實是,注意力模型可以接受任何輸入表徵,並將其減少為固定長度的單個語境向量,該向量可用於解碼步驟。因此,研究者可以從輸出中解耦輸入表徵。
記憶網路
像問答和聊天機器人這樣的應用需要具備根據事實資料庫中的資訊進行學習的能力。端到端的記憶網路通過使用記憶模組陣列來儲存事實資料庫,並使用注意力來建模記憶中每個事實的相關性來回答問題,從而實現了這一點。
不帶 RNN 的網路
Transformer 架構中,編碼器和解碼器由一堆相同的層組成,這些層則皆由兩個子層組成:對應位置的前饋神經網路(FNN)層和多頭自注意力層。Transformer 架構實現了重要的並行處理、更短的訓練時間和更高的翻譯準確率,而無需任何重複的元件。
用於可解釋性的注意力
由於模型的效能以及透明性和公平性,人們對 AI 模型的可解釋性產生了巨大的興趣。從可解釋性的角度來看,建模注意力尤其有趣,因為它讓我們可以直接觀察深度學習架構的內部工作機制。
如圖 4(a) 所示,Bahdanau 等人可視化了注意力權重,這些權重清楚地展示了法語和英語句子的自動對齊,儘管這兩種語言中動詞和名詞的位置不同。
圖 4:注意力權重的視覺化例子。
圖 4(b) 顯示,注意力權重有助於識別使用者的興趣。使用者 1 似乎偏好「卡通」視訊,而使用者 2 偏好關於「動物」的視訊。
最後,Xu 等人提供了相關影象區域(即具有高注意力權重的區域)的大量視覺化列表,這些區域對影象字幕任務(圖 4(c))中生成的文字具有重大的影響。
雖然注意力機制有助於提高模型可解釋性的這種觀點比較普遍,但有研究者經過實驗證明,標準的注意力模組在解釋模型方面基本沒什麼用。
*延伸閱讀
點選左下角 “ 閱讀原文 ”, 即可申請加入極市 目標跟蹤、目標檢測、工業檢測、人臉方向、視覺競賽等技術交流群, 更有每月大咖直播分享、真實專案需求對接、乾貨資訊彙總,行業技術交流, 一起來讓思想之光照的更遠吧~
△長按關注極市平臺
覺得有用麻煩給個在看啦~