Facebook開源了兩個無監督翻譯模型,只用單語就能訓練雙語
翻栗子 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
昨天,Yann LeCun大神發推宣佈,Facebook的兩個無監督翻譯模型,開源了。
所謂無監督,便是不需要雙語對照文字,只用單語語料庫 (Monolingual Corpora) 來訓練AI的翻譯能力。
登上了EMNLP 2018
此次開源的兩個模型,一個是基於短語的翻譯模型 (PBSMT) ,另一個是神經翻譯模型 (NMT) 。
△ 三步如B)C)D)
二者都經歷了以下三個步驟:
1.引數初始化
2.語言建模,有去噪效果
3.回譯,自動生成雙語對照
由此,即便沒有雙語語料庫作為訓練資料,AI依然能夠學會翻譯。
用WMT’14英法和WMT’16德英
△ 28.1是引入回譯之後的分數
加上回譯的PBSMT,幾乎比前輩的成績提升了一倍。NMT的表現也不差。
論文中寫到,除了效能更強之外,Facebook團隊的模型也更簡單,超引數比較少。
兩隻驕傲的AI翻譯官,登上了EMNLP 2018。
程式碼,終於開源了
NMT和PBSMT兩個模型的程式碼實現,都在GitHub上面了。
NMT:
NMT程式碼實現支援以下功能。
· 三種機器翻譯架構:seq2seq,biLSTM+注意力,Transformer
· 在不同模型、不同語言之間,共享引數
· 去噪自編碼器的訓練
· 雙語對照資料訓練
· 反向雙語對照訓練
· 即時多執行緒生成反向對照資料
△請注意科學燙手
還有一些論文裡面沒用到的功能,比如:
· 任意數量的語種
· 語言模型預訓練/共同訓練,引數共享
· 對抗訓練
PBSMT:
PBSMT程式碼實現支援以下功能。
· 無監督的短語表 (phrase-table) 生成指令碼
· 自動Moses訓練
△ 這隻雞可能很暴躁
請開始,你的翻譯
要訓練自己的AI翻譯,你需要以下工具:
Python 3
NumPy
PyTorch
Moses(用來清潔和標記化文字/訓練PBSMT模型)
fastBPE(用來生成並應用BPE程式碼)
fastText(用來生成嵌入)
MUSE(用來生成跨語言嵌入)
準備好了的話,就開始吧。
△ 違規者放心,不會有事的
GitHub傳送門:
https://github.com/facebookresearch/UnsupervisedMT
論文傳送門:
https://arxiv.org/pdf/1804.07755.pdf
△ 字幕組賣萌最為致命
— 完 —
加入社群
量子位AI社群19群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話介面回覆關鍵字“交流群”,獲取入群方式;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進專業群請在量子位公眾號(QbitAI)對話介面回覆關鍵字“專業群”,獲取入群方式。(專業群稽核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態