1. 程式人生 > >Facebook開源了兩個無監督翻譯模型,只用單語就能訓練雙語

Facebook開源了兩個無監督翻譯模型,只用單語就能訓練雙語

翻栗子 發自 凹非寺
量子位 出品 | 公眾號 QbitAI

640?wx_fmt=png

昨天,Yann LeCun大神發推宣佈,Facebook的兩個無監督翻譯模型,開源了。

所謂無監督,便是不需要雙語對照文字,只用單語語料庫 (Monolingual Corpora) 來訓練AI的翻譯能力。

登上了EMNLP 2018

此次開源的兩個模型,一個是基於短的翻譯模型 (PBSMT) ,另一個是神經翻譯模型 (NMT) 。

640?wx_fmt=png

 三步如B)C)D)

二者都經歷了以下三個步驟:

1.引數初始化
2.語言建模,有去噪效果
3.回譯,自動生成雙語對照

由此,即便沒有雙語語料庫作為訓練資料,AI依然能夠學會翻譯。

WMT’14英法WMT’16德英

兩個常用基準,評估模型的表現。結果,兩個模型的BLEU分值,皆遠遠高過了此前表現最好的模型。

640?wx_fmt=png

 28.1是引入回譯之後的分數

加上回譯的PBSMT,幾乎比前輩的成績提升了一倍。NMT的表現也不差。

論文中寫到,除了效能更強之外,Facebook團隊的模型也更簡單超引數比較少。

640?wx_fmt=png

兩隻驕傲的AI翻譯官,登上了EMNLP 2018

程式碼,終於開源了

NMTPBSMT兩個模型的程式碼實現,都在GitHub上面了。

NMT:

NMT程式碼實現支援以下功能。

· 三種機器翻譯架構:seq2seqbiLSTM+注意力Transformer

· 在不同模型、不同語言之間,共享引數

· 去噪自編碼器的訓練

· 雙語對照資料訓練

· 反向雙語對照訓練

· 即時多執行緒生成反向對照資料

640?wx_fmt=jpeg

請注意科學燙手

還有一些論文裡面沒用到的功能,比如:

· 任意數量的語種
· 語言模型預訓練/共同訓練,引數共享
· 對抗訓練

PBSMT:

PBSMT程式碼實現支援以下功能。

· 無監督的短語表 (phrase-table) 生成指令碼

· 自動Moses訓練

640?wx_fmt=jpeg

△ 這隻雞可能很暴躁

請開始,你的翻譯

要訓練自己的AI翻譯,你需要以下工具:

Python 3
NumPy
PyTorch
Moses(用來清潔和標記化文字/訓練PBSMT模型)
fastBPE(用來生成並應用BPE程式碼)
fastText(用來生成嵌入)
MUSE(用來生成跨語言嵌入)

準備好了的話,就開始吧。

640?wx_fmt=jpeg

△ 違規者放心,不會有事的

GitHub傳送門:
https://github.com/facebookresearch/UnsupervisedMT

論文傳送門:
https://arxiv.org/pdf/1804.07755.pdf

640?wx_fmt=png

△ 字幕組賣萌最為致命

加入社群

量子位AI社群19群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話介面回覆關鍵字“交流群”,獲取入群方式;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號(QbitAI)對話介面回覆關鍵字“專業群”,獲取入群方式。(專業群稽核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態