自然語言處理組2017論文研讀1：ME-MD：一個有效的神經系統框架

阿新 • • 發佈：2019-01-12

ME-MD：一個有效的神經系統框架

具有多個編碼器和解碼器的機器翻譯

Jinchao Zhang1 Qun Liu3,1 Jie Zhou2 1Key Laboratory of IntelligentInformation Processing, Institute of Computing Technology, CAS. 2Baidu Research- Institute of Deep Learning, Baidu Inc.,Beijing,China 3ADAPT Centre, School ofComputing, Dublin City University {zhangjinchao,liuqun}@ict.ac.cn,

[email protected]

Abstract

編碼器-解碼器神經框架非常廣泛用於神經機器翻譯（NMT）用一個編碼器來表示源語句和一個解碼器來生成目標詞。翻譯表現嚴重依賴於編碼器和代的表示能力解碼器的能力。為了進一步提高NMT，我們建議擴充套件原始編碼器解碼器框架到一個新穎的，它有多個編碼器和解碼器（ME-MD）。通過這樣，多個編碼器提取更多樣化功能來表示源序列和多個解碼器捕捉更復雜的翻譯知識。我們提出的ME-MD框架便於整合異構編碼器和多個深度和多個解碼器型別。漢英翻譯實驗任務表明我們的ME-MD系統超越了最先進的NMT系統達2.1BLEU點並超過了基於短語的摩西7.38BLEU分。我們的框架是一般的，可以應用於其他序列來排序任務。

1 Introduction

編碼器-解碼器框架[Kalchbrenner和Blunsom，2013;Cho等人，2014;Sutskever等，2014]是廣泛的用於神經機器翻譯。在這個框架中，編碼器將源語句壓縮為分佈表示和解碼器生成目標詞一個一個關於源代表。相比統計機器翻譯（SMT），NMT模型翻譯知識通過培訓單一網路在端到端的風格和搭建幾個騎子元件分開。提出了很多方法來增強NMT表現，如注意機制[Bahdanau等人，2015年;Luong等，2015a;Meng等人，2016]，有效的聯絡[Zhou等，2016;吳等人，2016]，覆蓋模型[Tuetal。，2016]，處理罕見詞彙[Jeanetal。，2015;Luong等，2015b;Sennrich等，2016;Chung等人，2016]，聯合培訓[Dongetal。，2015;Luong等，2016;

圖1：建議的ME-MD框架的總體架構。

該體系結構由兩個模組組成：M-Encoder和

M-解碼器。與編碼器 - 解碼器框架相比，MEMD

利用多個編碼器和解碼器。

Firat等，2016;ZophandKnight，2016]，外部記憶[Wangetal。，2016]和句級訓練[Shenetal。，2016年]。翻譯表現嚴重依賴於來源編碼器和目標的句子表示能力句子生成能力的解碼器。為了進一步提高NMT，我們提出了一個名為“ME-MD”的新框架（多個編碼器和多個解碼器）“，這是利用多個編碼器來表示源序列和多個解碼器產生目標字。這些編碼器和解碼器被允許擁有不同的深度或多個型別。基本思想是多個編碼器提供更全面的源代表和多解碼器捕捉更復雜的翻譯知識。我們實施幾個ME-MD系統並進行實驗在中英文翻譯任務上。實驗結果表明ME-MD系統的效能優於編碼器-解碼器基線大幅度增加。我們最好的系統超越了最先進的NMT系統由2.1BLEU點和超過短語為基礎的摩西7.38BLEU點。我們也驗證我們的方法從體系結構變化中獲益更多而不是讓網路越來越深入。雖然，我們在機器翻譯任務上進行實驗框架是一般的，可以應用於其他序列序列任務。

圖2（a）是具有三個子編碼器的多深度M編碼器。每個編碼器有獨特的深度。源語句被壓縮

分別將編碼器和分散式表示法合併為一個，作為源句的綜合表示。

（b）是具有一個基於GRU的編碼器和一個基於CNN的編碼器的多型別M編碼器。來自基於GRU的編碼器的表示

和基於CNN的編碼器組合成一個來表示源語句。

2神經機器翻譯

我們簡要介紹一下NMT架構[Bahdanau等人，2015]我們的系統建立在。形式上，給定一個來源句子x=x1，...，xm和目標句子y=y1，...，yn，NMT將翻譯概率模擬為

這裡

NMT系統主要由兩部分組成：編碼器和解碼器。為了便於說明，我們歸因於注意機制作為一個子元件解碼器。編碼器將源語句壓縮成分配表示和解碼器生成目標關於源代表的一個一個字，如

這裡h是源代表。 yt的生成概率計算為

q是預測目標詞的上下文，g（·）是a線性函式和st是解碼器的隱藏狀態代表翻譯狀態。注意力ct表示用於生成yt的相關源詞並且被計算為對齊時源表示h的加權和方程（4）中所示的向量αt，其中align（·）函式是a前饋網路與softmax歸一化。

隱藏狀態S_t更新為

其中f（·）是一個門控隱藏單元。

最近，實施了品種的關注機制

如

其中f1（·）和f2（·）是迴圈函式。我們在我們的NMT系統中採用這種品種的關注機制。

3 ME-MD框架

我們的目標是通過整合多個編碼器和解碼器來增強NMT。我們的直覺是，多個編碼器提供全面的源代表和多個解碼器捕捉複雜的翻譯知識。

圖3：具有三個解碼器的多深度M解碼器的架構。解碼器的深度分別為1，2和3。每個解碼器都有獨立的RNN引數和注意引數。三個解碼器的輸出被組合並饋入sof tmax函式以預測目標詞。

3.1一般架構

所提出的ME-MD框架由兩部分組成：MEncoder和M解碼器，如圖1所示。MEncoder將源語句壓縮為分佈作為源代表和MDecoder的表示在字上生成目標句子源代表。與編碼器-解碼器中的單個編碼器相比框架，M-Encoder允許多個編碼器來表示源句子，分別。所有源代表結合起來構建最終的源代表。我們期望通過整合不同的編碼器以獲得更全面的來源表示句子。在M解碼器中，包含多個解碼器捕捉更復雜的翻譯知識。解碼器的輸出結合在一起softmax層用於預測目標詞。建議ME-MD框架可靈活地整合可變編碼器和解碼器，並可應用於其他序列進行排序任務。

3.2 M編碼器

M-Encoder模組中的編碼器可以具有多種深度和多型別。多深度M-Encoder結合了一對不同深度的編碼器和多種型別的MEncoder利用不同型別的編碼器。我們認為多深度編碼器可以提供多種編碼器源句的高層抽象。圖2（a）展示了一種帶有三個編碼器的多深度M編碼器深度分別是2,4和6。不失一般性，我們拿“編碼器2”進行詳細說明。我們利用從左到右的門控復發單位（LGRU）[Choetet2014]，以正向壓縮源序列和從右到左選通迴圈單元（RGRU）反向壓縮源序列。不同方向的圖層交替堆疊直接連線。輸入後序列被堆疊的GRU層壓縮到向量o2={o21，...，o2m}，門控單元用於組合原始詞嵌入e（xi）和o2i 如:

其中Wxz，Woz，Wxh和Woh∈Rd×d是權重矩陣引數bz和bh∈Rd是偏置引數。對於方便地建立網路，我們設定詞維並將隱藏的單元號碼設定為相同的值d。三個編碼器產生三個源代表作為

我們將這三種表示與前饋結合在一起網路為

其中Wh1，Wh2和Wh3∈Rd×d是權重矩陣引數，bz∈Rd是偏置引數。

圖2（b）示出了具有兩種型別的多型別M編碼器的編碼器壓縮源語句。一個編碼器是基於GRU的網路和另一個是基於CNN的網路。CNN編碼器只有一個卷積層具有固定的視窗大小。GRU編碼器捕獲全球源代表和CNN編碼器的重點當地代表。CNN編碼器的輸出是計算為

其中Wf∈Rd×P×d是權重矩陣引數，b是偏置引數和p是卷積視窗大小。門計算和最終源代表計算與多深度M-編碼器相同。

3.3 M解碼器

M解碼器的目的是增強其生成能力解碼器通過整合多個解碼器。類似到M-編碼器，M-解碼器也可以有多個深度和多種型別。多深度M解碼器組成一對不同深度的解碼器。該多型別M解碼器允許利用變數關注機制[Bahdanau等，2015;Luong等，2015a;吳等人，2016]和多個經常性網路。圖3顯示了一個包含多深度M解碼器三個深度不同的解碼器。我們拿“解碼器2”詳細描述而不失一般性。我們採用我們的NMT系統中的品種解碼器實現。形式上，計算在時間t的“解碼器2”的輸出q2，t如下所示：

其中es21，t和es22，t是GRU層的輸出，c2，t是用於生成目標詞yt，函式的相關源上下文如式（4）計算注意力（·），函式g（·）是a線性的。門計算DGate2（es22，t，c2，t）是

其中z是更新門，r是復位門，Wcz，Wsz，Wcr，Wsr，Wss和Wcz是權重矩陣引數，bgz，bgr和bss是偏置引數。三個的輸出解碼器由前饋網路和feeded組合進入softmax函式來預測目標詞為

其中Wq1，Wq2和Wq3是權重矩陣引數，bq是偏置引數。雖然我們提出了幾類M編碼器和本節中的M解碼器，各種各樣的編碼器和解碼器解碼器可以融入我們的框架中，以實現其靈活性。

4實驗

我們驗證了提議框架的有效性中英文翻譯任務。

4.1資料和指標

我們的漢英培訓語料庫包含1.25M的句子以27.9M中文從LDCcorpora2提取單詞和34.5M英文單詞。30K詞彙涵蓋大約97.7％和99.3％的字分別為中文和英文。我們選擇NIST2002資料集作為驗證集。NIST2003-2006被用作測試集。翻譯質量評估指標是不區分大小寫的4克BLEU3[Papineni等人，2002]。

4.2系統

我們實現了4個ME-MD系統並與之進行比較兩個基線系統。系統列舉如下：

1. 摩西[Koehn等人，2007]是一個開源片語採用預設設定的SMT基準系統。話與GIZA++一致[OchandNey，2003]。該修改Kneser-Ney的4-gram語言模型對訓練資料的目標部分進行平滑訓練SRILM[Stolcke等，2002]。

2. RNNsearch*是我們內部實施的RNNsearch[Bahdanau等，2015]具有品種關注機制的基線系統。不同於原始模型，我們堆疊一個前向GRU層和一個直接連線為a的向後GRU層兩層編碼器。該系統可以被視為“1Encoders-1Decoder”是ME-MD系統的基礎其他ME-MD系統。

3. 2Encoders-1Decoder獲取兩個基於GRU的編碼器和一個基於GRU的解碼器。編碼器的深度分別是2和4。解碼器的深度是1。

4. 3Encoders-1Decoder有三個基於GRU的編碼器和一個基於GRU的解碼器。編碼器的深度分別是2,4和6。解碼器的深度是1。

5. 3Encoders-3Decoders由三個基於GRU的編碼器組成和三個基於GRU的解碼器。深度編碼器和解碼器分別是2,4和6。

6. GCEncoders-1Decoders包含一個基於GRU的編碼器和一個基於CNN的編碼器。的深度基於GRU的編碼器是2和卷積視窗基於CNN的編碼器的大小是3.深度解碼器是1。

4.3 NMT訓練

訓練NMT模型的句子長度可達50，而SMT模型沒有使用整個訓練資料限制。嵌入維度和隱藏單位數被設定為512.方陣被初始化以任意正交的方式。非正方形矩陣被初始化通過對來自高斯分佈的每個元素進行取樣平均值為0，方差為0.012。所有偏見都已初始化為0.引數由小批量梯度更新下降和學習率由AdaDelta[Zeiler，2012年]衰變常數ρ=0.95和分母常數？=1e-6.批次大小為80.退出策略[Srivastava等，2014]應用於輸出層退出率=0.5以避免過度擬合。的梯度L2範數大於預定義的成本函式閾值1.0被歸一化到閾值以避免梯度爆炸[Pascanu等，2013]。我們利用長度關於候選翻譯的規範化以及關於詞典的光束大小解碼為12.該系統在Theano上實現圖書館並使用特斯拉K40GPU進行培訓。

4.4實驗結果

表1顯示了每個系統的效能。該2Encoder-1Decoder系統和3Encoder-1Decoder系統超過RNNsearch*基線0.52和1.90BLEU點，從中我們得出結論，納入額外的編碼器可以有效提高NMT的效能。通過將解碼器的數量擴充套件到三個，我們獲得進一步證明0.43BLEU點證明了有效性的M解碼器模組。GCEncoders-1解碼器系統的效能優於RNNsearch*基準1.19BLEU分顯示基於CNN的編碼器改善了訊號源M編碼器的表示能力。GCEncoders1Decoders系統超過2Encoders-1Decoder系統0.67BLEU點表明基於CNN的編碼器提供不同來源的代表。我們介紹以前使用的作品的表現表2中相同的訓練語料庫。雖然我們限制了句子的最大長度為50，我們的模型達到了所有測試裝置都具有最先進的效能。我們的ME-MD系統至少2.1BLEU分勝過以前的工作。

表1：摩西NIST測試集03-06（預設設定），RNNsearch*上的BLEU-4得分（％）*（1編碼器1解碼器）和ME-MD系統（Id=3：6）與不同數量的編碼器和解碼器。括號中的值是RNNsearch*和摩西分別。該結果顯示ME-MD系統在Moses和RNNsearch上取得重大進展*基線。

表2：與以前關於相同訓練語料庫的比較。覆蓋範圍是一個基本的RNNsearch模型，覆蓋模型為緩解翻譯和翻譯問題。MEMDEC將通過外部儲存器提高翻譯質量。NMTIA利用可讀和可寫的注意機制來跟蹤解碼中的互動歷史。所有工作的詞彙量都是30K和句子的最大長度不同。我們的“3Encoders-3Decoders”系統大幅超越了以往的作品並且達到了最先進的表現。

4.5與更深和更寬的網路的比較

我們進行更多的實驗來調查我們的方法通過製作神經來實現改進網路似乎越來越深。表3顯示在更廣泛的深層網路之間的效能比較ME-MD系統和圖4展示了培訓每個系統的速度。

•更寬的網路。我們擴大了嵌入維度這個詞和隱藏的單元號碼來建立網路更寬的。我們實現了0.79BLEU點的改進通過將寬度從512擴充套件到1024並進一步獲得通過將寬度設定為更多0.32BLEU點2048.然而，這種方法導致了這種迅速增長引數和訓練劇烈下降速度。與更廣泛的網路相比，我們的方法使用更少的引數提供更大的改進節省大量的計算開銷。

•更深的網路。隨著深度的增加，RNNsearch*取得輕微改善甚至獲得表現不佳。原因是這很困難為梯度傳播培養非常深的網路問題。雖然我們的編碼器和解碼器也很深，我們仍然取得重大進展對於淺編碼器是可以緩解的梯度傳播問題。從速度實驗來看，我們觀察到ME-MD系統的速度主要取決於最深的編碼器，並且接近於RNNsearch*擁有相同的深度。

圖4：每個系統的訓練速度。擴大寬度RNNsearch*導致訓練速度快速下降。速度的ME-MD系統取決於其最深的編碼器並且接近於RNNsearch*具有相同的深度。與更深的相比和更廣泛的網路，ME-MD系統實現了顯著的改進培訓費用適度增加。

實驗結果表明，我們的方法從有效的架構中受益更多而不僅僅是引入更多的引數和ME-MD系統在適度增加的情況下實現重大改善培訓開銷。

5相關工作

我們提出的ME-MD框架擁有多個編碼器和解碼器，這與多工類似學習基於編碼器-解碼器的架構框架。董等人。[2015]提出了一個統一的網路一個編碼器和多個解碼器同時工作訓練一對翻譯系統。這些翻譯系統共享源語句表示並生成以不同語言翻譯目標。Luongetal人。[2016]提出了一個帶有多個編碼器的框架解碼器用於多工序列到序列學習。編碼器和解碼器專為多種特定應用而設計任務，如翻譯，解析和影象標題。的Firat等人。[2016]提議分享關注機制共同培訓多語種翻譯系統，其中編碼器和解碼器用於某些語言。上面提到的作品只是啟用一個編碼器和一個解碼器在處理某個任務或翻譯時方向。在我們的框架中，所有的編碼器和解碼器同時使用，通過它翻譯質量得到提高。多源翻譯模型提出了多種編碼器和注意機制由Zoph和Knight[2016]提供。一個編碼器被應用於壓縮一種源語言和所有編碼器輸出被組合以生成目標翻譯。和....相比我們的工作，他們的方法需要多路平行語料庫這很難獲得。

表3：從系統1到系統3，我們放大單詞嵌入維數和隱藏單元數量來構建更廣泛的網路。儘管該方法提供了改進，但引數規模迅速增加，這導致嚴重的計算開銷。我們的提出的ME-MD方法在較少引數增長的情況下提供更大的改進。比較系統1,4和5，更深的網路翻譯質量略有提高，甚至表現不佳。

6 Conclusion

我們提出了一個名為“ME-MD”的有效框架利用多個編碼器和解碼器提高NMT效能。與編碼器-解碼器框架相比，我們的方法可以利用多個編碼器和解碼器具有可變的深度和型別。基本的想法是多重編碼器提供更全面的表示源句子和多個解碼器捕獲更復雜的翻譯知識。驗證我們的方法的有效性，我們進行實驗漢英翻譯任務。我們訓練了各種網路採用M-Encoder和M-Decoder模組的架構。實驗表明，ME-MD系統取得了顯著成效在基本的編碼器解碼器上翻譯質量的改進系統和基於短語的系統。通過增加編碼器的數量和類別和解碼器，我們獲得持續的改進。改進受益於結構變化原始建築。與以前的作品進行比較在相同的訓練語料庫顯示我們最好的模型實現最先進的表現。我們也實施了更廣泛的網路，並發現擴大嵌入這個詞而隱藏的大小可以進一步改善翻譯質量。而更廣泛的網路需要龐大的計算開銷，這需要更長的訓練時間和更大的時間GPU記憶體空間。具有更深層架構的網路不會產生可觀的改進。隨著增加實驗表明翻譯質量下降反之。與更廣泛和更深的相比網路，我們的模型使不同的編碼器和解碼器從而導致翻譯質量的提升較少計算開銷。雖然，我們在機器翻譯上進行了實驗任務，ME-MD框架是通用的並且可以應用到其他序列來排序任務。該框架是一種增強神經網路的新方法效能。除此之外的實現紙張，可以引入更多類別的編碼器和解碼器進入框架。將來，我們會驗證我們的探索更多的語言對並探索更有效的方法提高模型能力的方法。

致謝

劉群的工作得到了科學基金會的部分支援愛爾蘭在ADAPT數字內容技術中心（www.adaptcentre.ie）在都柏林城市大學資助下SFI研究中心計劃（Grant 13 / RC / 2106）由歐洲區域發展基金共同出資。我們感謝匿名審稿人的深刻見解註釋。

References [Bahdanauet al., 2015] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neuralmachine translation by jointly learning to align and translate. In Proceedingsof ICLR2015, 2015. [Cho et al., 2014] Kyunghyun Cho, Bart Van Merrienboer, ¨Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Proceedings of theTwenty-Sixth International Joint Conference on Artificial Intelligence(IJCAI-17) 3397 Holger Schwenk, and Yoshua Bengio. Learning phraserepresentations using rnn encoder-decoder for statistical machine translation.arXiv preprint arXiv:1406.1078, 2014. [Chung et al., 2016] Junyoung Chung,Kyunghyun Cho, and Yoshua Bengio. A character-level decoder without explicitsegmentation for neural machine translation. In Proceedings of ACL2016, 2016.[Dong et al., 2015] Daxiang Dong, Hua Wu, Wei He, Dianhai Yu, and Haifeng Wang.Multi-task learning for multiple language translation. In ACL (1), pages1723–1732, 2015. [Firat et al., 2016] Orhan Firat, Kyunghyun Cho, BaskaranSankaran, Fatos T Yarman Vural, and Yoshua Bengio. Multi-way, multilingual neuralmachine translation. Computer Speech & Language, 2016. [Jean et al., 2015]Sbastien Jean, Kyunghyun Cho, Roland Memisevic, and Yoshua Bengio. On usingvery large target vocabulary for neural machine translation. In Proceedings ofACL2014, volume 1, pages 1–10, 2015. [Kalchbrenner and Blunsom, 2013] NalKalchbrenner and Phil Blunsom. Recurrent continuous translation models. InProceedings of EMNLP2013, pages 1700–1709, Seattle, Washington, USA, October2013. [Koehn et al., 2007] Philipp Koehn, Hieu Hoang, Alexandra Birch, ChrisCallison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen,Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin,and Evan Herbst. Moses: Open source toolkit for statistical machine translation.In Proceedings of the ACL2007 Demo and Poster Sessions, pages 177–180, Prague,Czech Republic, June 2007. [Luong et al., 2015a] Minh-Thang Luong, Hieu Pham,and Christopher D. Manning. Effective approaches to attention-based neuralmachine translation. In Proceedings of EMNLP2015, Lisbon, Portugal, September2015. [Luong et al., 2015b] Minh Thang Luong, Ilya Sutskever, Quoc V. Le, OriolVinyals, and Wojciech Zaremba. Addressing the rare word problem in neuralmachine translation. Proceedings of ACL2015, 27(2):82–86, 2015. [Luong et al.,2016] Minh-Thang Luong, Quoc V. Le, Ilya Sutskever, Oriol Vinyals, and LukaszKaiser. Multi-task sequence to sequence learning. In International Conferenceon Learning Representations (ICLR), San Juan, Puerto Rico, May 2016. [Meng etal., 2016] Fandong Meng, Zhengdong Lu, Hang Li, and Qun Liu. Interactiveattention for neural machine translation. In Proceedings of COLING2016, 2016.[Och and Ney, 2003] Franz Josef Och and Hermann Ney. A systematic comparison ofvarious statistical alignment models. Computational linguistics, 29(1):19–51,2003. [Papineni et al., 2002] Kishore Papineni, Salim Roukos, Todd Ward, andWei-Jing Zhu. Bleu: a method for automatic evaluation of machine translation.In Proceedings of ACL2002, pages 311–318. Association for ComputationalLinguistics, 2002. [Pascanu et al., 2013] Razvan Pascanu, Tomas Mikolov, andYoshua Bengio. On the difficulty of training recurrent neural networks. ICML(3), 28:1310–1318, 2013. [Sennrich et al., 2016] Rico Sennrich, Barry Haddow,and Alexandra Birch. Neural machine translation of rare words with subwordunits. In Proceedings of ACL2016, pages 1715–1725, 2016. [Shen et al., 2016]Shiqi Shen, Yong Cheng, Zhongjun He, Hua Wu, Maosong Sun, and Yang Liu. Minimumrisk training for neural machine translation. In Proceedings of ACL2016, pages1683–1692, 2016. [Srivastava et al., 2014] Nitish Srivastava, Geoffrey EHinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: asimple way to prevent neural networks from overfitting. Journal of MachineLearning Research, 15(1):1929–1958, 2014. [Stolcke and others, 2002] AndreasStolcke et al. Srilm-an extensible language modeling toolkit. In Proceedings ofthe international conference on spoken language processing, volume 2, pages901–904, 2002. [Sutskever et al., 2014] Ilya Sutskever, Oriol Vinyals, and QuocV Le. Sequence to sequence learning with neural networks. In NIPS, 2014. [Tu etal., 2016] Zhaopeng Tu, Zhengdong Lu, yang Liu, Xiaohua Liu, and Hang Li. Modelingcoverage for neural machine translation. In Proceedings of ACL, pages 76–85,2016. [Wang et al., 2016] Mingxuan Wang, Zhengdong Lu, Hang Li, and Qun Liu.Memory-enhanced decoder for neural machine translation. In Proceedings ofEMNLP2016, 2016. [Wu et al., 2016] Yonghui Wu, Mike Schuster, Zhifeng Chen,Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, QinGao, Klaus Macherey, et al. Google’s neural machine translation system:Bridging the gap between human and machine translation. arXiv preprintarXiv:1609.08144, 2016. [Zeiler, 2012] Matthew D Zeiler. Adadelta: an adaptivelearning rate method. arXiv preprint arXiv:1212.5701, 2012. [Zhou et al., 2016]Jie Zhou, Ying Cao, Xuguang Wang, Peng Li, and Wei Xu. Deep recurrent modelswith fastforward connections for neural machine translation. In Proceedings ofEMNLP2016, 2016. [Zoph and Knight, 2016] Barret Zoph and Kevin Knight.Multi-source neural translation. In Proceedings of NAACL-HLT, pages 30–34,2016.

自然語言處理組2017論文研讀1：ME-MD：一個有效的神經系統框架

自然語言處理組2017論文研讀1：ME-MD：一個有效的神經系統框架

自然語言處理領域重要論文&資源全索引

CS224n-自然語言處理與深度學習簡介1

深度學習和自然語言處理的應用和脈絡1-基礎

ACL 2017自然語言處理精選論文

NLP系列(1)_從破譯外星人文字淺談自然語言處理的基礎

Python自然語言處理1

Python自然語言處理 Chapter 1

自然語言處理---用隱馬爾科夫模型（HMM）實現詞性標註---1998年1月份人民日報語料---learn---test---evaluation---Demo---java實現

python自然語言處理 -讀書筆記1

python自然語言處理——1.4 回到python：決策和控制

python自然語言處理——1.2 近觀python：將文本當作詞鏈表

C# 自然語言處理1-識別文字到語音

python 自然語言處理統計語言建模（1/2）

python自然語言處理——2.1 獲取文字語料庫

python自然語言處理——1.5 自動理解自然語言

自然語言處理系列-1-基本應用

論文 | 自然語言處理頂會ACL 2018該關注什麼？螞蟻金服專家告訴你！

【讀書筆記】《Python自然語言處理》第1章語言處理與Python

自然語言處理1 -- 分詞

自然語言處理組2017論文研讀1：ME-MD：一個有效的神經系統框架

相關推薦