理解Attention機制原理及模型

阿新 • • 發佈：2019-02-03

寫在前面

目前採用編碼器-解碼器 (Encode-Decode) 結構的模型非常熱門，是因為它在許多領域較其他的傳統模型方法都取得了更好的結果。這種結構的模型通常將輸入序列編碼成一個固定長度的向量表示，對於長度較短的輸入序列而言，該模型能夠學習出對應合理的向量表示。然而，這種模型存在的問題在於：當輸入序列非常長時，模型難以學到合理的向量表示。這個問題限制了模型的效能，尤其當輸入序列比較長時，模型的效能會變得很差。解決方法是將encoder的歷史狀態視作隨機讀取記憶體，這樣不僅增加了源語言的維度，而且增加了記憶的持續時間（LSTM只是短時記憶）。

Attention機制

Attention機制的基本思想是，打破了傳統編碼器-解碼器結構在編解碼時都依賴於內部一個固定長度向量的限制

。

Attention機制的實現是通過保留LSTM編碼器對輸入序列的中間輸出結果，然後訓練一個模型來對這些輸入進行選擇性的學習並且在模型輸出時將輸出序列與之進行關聯。

更為通俗的一種解釋是，attention機制就是將encoder的麼一個隱藏狀態設定一個權重，根據權重的不同決定decoder輸出更側重於哪一個編碼狀態。

下面直接上圖來看看attention機制的流程。

約定encoder hidden states：h1,h2,...,hn；第t時刻decoder hidden state：St；

由encoder hidden states和decoder hidden state 計算每個encoder狀態對應的attention score Et

2.將Et softmax化後得到attention分佈

3.將attention分佈與encoder hidden state 相乘後相加得到attention vector

4.將attention vector與decoder hidden state 作為輸入計算得出輸出

參考資料

理解Attention機制原理及模型

寫在前面

Attention機制

理解Attention機制原理及模型

QEMU快照(SNAPSHOT)機制原理及關鍵技術理解

幾張圖幫你理解 docker 基本原理及快速入門

一文簡單理解“推薦系統”原理及架構

理解HTTP session原理及應用

POW共識機制原理及優缺點

Java集合-05fail-fast(快速失敗)機制原理及解決方法

深入理解Binder通訊原理及面試問題

車載BlueTooth通話機制原理及開發

理解mysql_事務原理及常見優化思路

java併發程式設計——四(synchronized\Lock\volatile) 鎖機制原理及關聯

理解GRUB2工作原理及配置選項與方法

機器學習 | 深入SVM原理及模型推導（一）

閱讀理解任務中的Attention-over-Attention神經網路模型原理及實現

seq2seq裡的 attention機制的原理及程式碼及個人理解

深度學習中的序列模型演變及學習筆記（含RNN/LSTM/GRU/Seq2Seq/Attention機制）

Struts2漏洞利用原理及OGNL機制

學一點 mysql 雙機異地熱備份----快速理解mysql主從，主主備份原理及實踐

理解javascript作用域及hosting機制

JVM 及垃圾回收機制原理

理解Attention機制原理及模型

寫在前面

Attention機制

相關推薦