Facebook開源了兩個無監督翻譯模型，只用單語就能訓練雙語

阿新 • • 發佈：2019-02-04

翻栗子發自凹非寺
量子位出品 | 公眾號 QbitAI

640?wx_fmt=png

昨天，Yann LeCun大神發推宣佈，Facebook的兩個無監督翻譯模型，開源了。

所謂無監督，便是不需要雙語對照文字，只用單語語料庫 (Monolingual Corpora) 來訓練AI的翻譯能力。

登上了EMNLP 2018

此次開源的兩個模型，一個是基於短語的翻譯模型 (PBSMT) ，另一個是神經翻譯模型 (NMT) 。

640?wx_fmt=png

△ 三步如B)C)D)

二者都經歷了以下三個步驟：

1.引數初始化
2.語言建模，有去噪效果
3.回譯，自動生成雙語對照

由此，即便沒有雙語語料庫作為訓練資料，AI依然能夠學會翻譯。

用WMT’14英法和WMT’16德英

兩個常用基準，評估模型的表現。結果，兩個模型的BLEU分值，皆遠遠高過了此前表現最好的模型。

640?wx_fmt=png

△ 28.1是引入回譯之後的分數

加上回譯的PBSMT，幾乎比前輩的成績提升了一倍。NMT的表現也不差。

論文中寫到，除了效能更強之外，Facebook團隊的模型也更簡單，超引數比較少。

640?wx_fmt=png

兩隻驕傲的AI翻譯官，登上了EMNLP 2018。

程式碼，終於開源了

NMT和PBSMT兩個模型的程式碼實現，都在GitHub上面了。

NMT：

NMT程式碼實現支援以下功能。

· 三種機器翻譯架構：seq2seq，biLSTM+注意力，Transformer

· 在不同模型、不同語言之間，共享引數

· 去噪自編碼器的訓練

· 雙語對照資料訓練

· 反向雙語對照訓練

· 即時多執行緒生成反向對照資料

640?wx_fmt=jpeg

△請注意科學燙手

還有一些論文裡面沒用到的功能，比如：

· 任意數量的語種
· 語言模型預訓練/共同訓練，引數共享
· 對抗訓練

PBSMT：

PBSMT程式碼實現支援以下功能。

· 無監督的短語表 (phrase-table) 生成指令碼

· 自動Moses訓練

640?wx_fmt=jpeg

△ 這隻雞可能很暴躁

請開始，你的翻譯

要訓練自己的AI翻譯，你需要以下工具：

Python 3
NumPy
PyTorch
Moses（用來清潔和標記化文字/訓練PBSMT模型）
fastBPE（用來生成並應用BPE程式碼）
fastText（用來生成嵌入）
MUSE（用來生成跨語言嵌入）

準備好了的話，就開始吧。

640?wx_fmt=jpeg

△ 違規者放心，不會有事的

GitHub傳送門：
https://github.com/facebookresearch/UnsupervisedMT

論文傳送門：
https://arxiv.org/pdf/1804.07755.pdf

640?wx_fmt=png

△ 字幕組賣萌最為致命

— 完 —

加入社群

量子位AI社群19群開始招募啦，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話介面回覆關鍵字“交流群”，獲取入群方式；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號（QbitAI）對話介面回覆關鍵字“專業群”，獲取入群方式。（專業群稽核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話介面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

Facebook開源了兩個無監督翻譯模型，只用單語就能訓練雙語

翻栗子發自凹非寺量子位出品 | 公眾號 QbitAI昨天，Yann LeCun大神發推

關於PHP輸出字符串多了兩個字節的BUG

color 解析 nbsp 利用尋找開始通過 class 輸出近日IOS開發那邊小夥伴跟我說，解析服務器發回的字符信息時候出現bug. 明明利用Log輸出來的是字符串“hello” 可是利用length計算就是多出來兩個字節，比如這裏是7. 我一聽沒道理啊，於

java:在Conllection接口中實際上也規定了兩個可以將集合變成對象數組的操作

{} string bject 比較 pri con 操作 object list 在Conllection接口中實際上也規定了兩個可以將集合變成對象數組的操作 //在Conllection接口中實際上也規定了兩個可以將集合變成對象數組的操作 List<Stri

問題-windows下的文本文檔在linux下查看時開頭多了兩個字符的解決辦法及預防辦法

image bom code size 正常 watermark 查看 color sql 問題說明 sql的insert語句，在windows上傳到服務器上，使用heat命令查看時發現文件的開頭多了兩個字符，使用vim編輯時正常；解決辦法： dos2unix filen

利用MAP存數據，防止超時，一開始用了兩個for 循環CodeForces - 702B

開始 def cout += -cp CI ace sin com #include<bits/stdc++.h> using namespace std; map <int,int> M; long long ans; int main()

新公司上班一個月，我悟出了兩個道理，不得不服

分享並不是默認特意最簡 oss 部分 ado 現在剛從另一家公司裸辭，本來的打算也被突然的事情打斷，自己不是富二代，生活還是要繼續的，不得不找工作了，但是剛上完一個月班，我心中頓時感慨萬千，這社會很現實！大多數的企業體制都差不多，優點和缺點都有，但哪個更明顯就

MIT開發新型無監督語言翻譯模型，又快又精準

麻省理工學院的研究人員開發了一種新穎的“無監督”的語言翻譯模型，這意味著它無需人工註釋和指導即可執行，這可以使基於計算機的更多語言翻譯更快，更高效。谷歌，Facebook和亞馬遜的翻譯系統需要訓練模型來查詢數百萬文件中的模式，例如法律和政治文件或新聞文章，這些文件已被人類翻譯成各種語言。

一些巨集替換用法，使程式碼更加精煉。總結了兩個，一個foreach，用來c++容器遍歷，一個計算程式碼執行時間的。

一：#ifndef foreach #define foreach(container,it) \ for(typeof((container).begin()) it = (container).begin();it != (container).end() ;++it) #endif

編寫一個Java 應用程式，使用者從輸入對話方塊輸入了兩個日期，程式將判斷兩個日期的大小關係，以及兩個日期之間的間隔天數。

1 package ex6_1; 2 3 import java.sql.Date; 4 import java.util.Calendar; 5 6 import javax.swing.JOptionPane; 7 8 public class DateExample { 9

申請開通了兩個線上聊天室

呵呵，閒來有事，開通了兩個線上實時聊天室，供兒子的同學使用！哈哈如果有趕時間，也可以交流一下喲！相關程式碼或地址： 1 閃聊聊天 <script language="javascript"&

[Android應用開發]添加了兩個Button後發現只顯示一個

在相關的layout.xml檔案中添加了兩個button後,發現只顯示一個button: <Button android:id="@+id/start_normal_activity" android:layout

電腦裝了兩個版本python，windows命令列如何改變預設python版本

裝了python2和python3，兩個版本，想給python2安裝某個python包，但是windows命令列預設的是python3，·············哎我找了好久找不到直接改變預設版本的方法，然後暴力解決了····················具體方法是：

經過兩個多月的攻關，終於搞定了live555多執行緒並穩定壓測通過

live555已經發展了十幾年了，不得不欽佩作者堅持不懈的奉獻和國外的開源生態環境，live555可以說是大部分的安防從業者的入門之選，尤其是在嵌入式或者Linux系統上，其應用還是蠻廣泛的，主要是其相容性和穩定性；但是隨著live555十幾年的不斷迭代

（轉帖）我在北京當了兩個月“地老鼠”

我在北京當了兩個月“地老鼠” 作者：清秋子提交日期：2003-07-15 19:03:00  　　　　　　我在北京當了兩個月“地老鼠”－－底層生活散記　　　　　　1

安裝兩個不同版本的Jdk，改了path路徑，但還是顯示之前jdk版本號

今天來新公司時，新公司都用的是jdk1.5，讓我裝jdk1.5，而我電腦之前裝的是jdk1.6，但是當我把jdk1.5裝好後，path路徑也改成了jdk1.5的路徑了，但是在dos下敲下Java -version檢視版本時，還是顯示的jdk1.6版本！解決方

使用兩個for迴圈的時候，會非常慢，效率不高，使用構造字典，效率快了不少一點點！

假如有兩張表t1和t2，t1是屬性是id name，t2是id sex。兩張表id是關聯的。假如有兩個集合，C1和C2，C1存著T1的資料，C2存著T2的資料。此時我們想，將C1和C2的資料整合到一起變成新的物件，屬性為id ，name，sex。一般我們都會使用for

如何判斷兩個無環單鏈表是否相交；如果相交，給出相交的第一個結點

比較好的方法有兩個：將其中一個連結串列首尾相連，檢測另外一個連結串列是否存在環；如果存在，則兩個連結串列相交，而檢測出來的環入口即為相交的第一個結點。如果兩個連結串列相交，那個兩個連結串列從相交點到

裝了兩個版本的Tomcat注意了！

今天剛學JSP,在裝Tomcat時出現了問題，我下載了兩個版本的Tomcat，分別是tomcat-7和tomcat-8;但是當我執行tomcat-7中的startup.bat時，出現的介面卻是tomcat-8的，什麼情況？原來是解壓後沒有配置環

Android依賴庫程式安裝出現了兩個圖示

唉，說來也是慚愧，今天在開發中，用A專案依賴B專案在安裝除錯的過程中，桌面一直出現兩個圖示，一個是A專案的啟動頁面，一個是B專案的啟動頁面，開始一直納悶到底是哪裡出了問題，後來仔細檢視發現，A專案的AndroidManifest.xml 和B專案的AndroidManif

自定義view中用到了兩個類--獲取螢幕資訊、設定佈局

DisplayMetrics metrics = new DisplayMetrics(); getWindowManager().getDefaultDisplay().getMetrics(metrics); getWindowManager().getDefaultDisplay().getMet

Facebook開源了兩個無監督翻譯模型，只用單語就能訓練雙語

翻栗子 發自 凹非寺量子位 出品 | 公眾號 QbitAI

登上了EMNLP 2018

△ 三步如B)C)D)

△ 28.1是引入回譯之後的分數

程式碼，終於開源了

NMT：

△請注意科學燙手

PBSMT：

△ 這隻雞可能很暴躁

請開始，你的翻譯

△ 違規者放心，不會有事的

△ 字幕組賣萌最為致命

相關推薦

翻栗子發自凹非寺
量子位出品 | 公眾號 QbitAI