MIT開發新機器翻譯模型,有望翻譯世界上的7000種語言
在這個處處連線的網際網路世界裡,人與人之間的溝通和交流變得無比的方便快捷。但現在的問題是,語言的差異仍然像是一道深不可測的鴻溝擺在擁有不同文化背景的人們面前。
近年來,人工智慧學者們一直持續改進機器翻譯演算法——從多年前的規則翻譯模型,到統計翻譯模型,再到目前最為火熱的神經翻譯模型,力求早日打破這種語言鴻溝。目前,人類使用近 7000 種不同的語言,而根據一支麻省理工團隊近日釋出的最新成果,他們開發的新機器翻譯模型,甚至可以翻譯世界上絕大多數語言,甚至包括那些使用人數很少的語言。
目前,來自谷歌、Facebook、微軟和亞馬遜等公司的機器翻譯系統,是監督式的機器翻譯,需要大量的對齊語料(指訓練資料中兩種語言的段落、句子甚至單詞能夠一一對應的語料)來訓練模型,從成百上千萬的文件中尋找匹配模式,例如已經被人類翻譯成各種語言的法律和政治文件或新聞文章。當給定一種語言的單詞時,機器就可以從這些文件裡找到另一種語言中對應匹配的單詞或短語。
對一些常用語言來說,網際網路的語料較為豐富,因此谷歌、微軟等公司的機器翻譯模型在某些常用語言之間的翻譯表現已經超越了人類。而對相對小眾的小語種來說,對齊語料很少,資料的積累十分耗時且難以收集。
為了克服對齊語料稀缺的困難,最近幾年出現了一些無監督機器翻譯相關的研究,比如僅利用單語語料(即擁有分別擁有兩種語言的大量語料,但沒有互相之間的對齊和翻譯資料),在訓練中引入對偶學習(Dual Learning)、聯合訓練(Joint Training)、對齊嵌入空間等訓練技巧,取得了不錯的效果,有些論文的結果甚至可以與對齊語料訓練出來的模型結果相近。但這些無監督機器翻譯的一大缺點就是訓練速度過於緩慢。比如對偶學習,如圖 1,特殊的對偶結構,使得兩個任務可以互相提供反饋資訊,而這些反饋資訊可以幫助更好地訓練深度學習模型。本模型某一步可能翻譯出錯,反饋給另一模型之後,另一模型可以用自身的語言模型糾正(修改成符合自身語法的語句),然後經再次翻譯之後反饋給本模型。這種學習模式需要大量反覆的調整和學習,由此帶來訓練時間的大幅增加。

圖丨對偶學習的示意圖
麻省理工學院的研究人員開發的這種新穎的“無監督”語言翻譯模型,既不像監督式機器翻譯任務一樣需要對齊語料,同時又克服了無監督機器翻譯任務耗時低效的缺點,實現更快捷、更有效的語言翻譯,從而使更多的語言翻譯可以通過計算機來完成。
本文發表在自然語言處理四大頂級會議之一的 EMNLP 會議上,兩位作者 Tommi Jaakkola 和 David Alvarez-Melis 都是來自麻省理工學院電腦科學與人工智慧實驗室(CSAIL)的研究人員。
論文連結:
ofollow,noindex"> https:// arxiv.org/pdf/1809.0001 3.pdf
論文摘要:從機器翻譯領域到遷移學習領域,跨語言和跨域一致都非常重要。最近,單語詞嵌入已經成為有效的翻譯對齊工具。然而,目前的最優方法包含多個步驟,包括啟發式訓練後微調的方法。本文中,以度量恢復演算法計算詞嵌入為思想,將所謂的一致性問題轉化為最優傳輸(optimal transport)問題。文中使用了 Wasserstein 距離來度量詞語之間的相似度是如何在不同語言中產生聯絡的。進而,闡述本文所說的最優運輸問題可以被高效率地估算,幾乎不需要微調,就可以達到目前無監督翻譯任務裡最優的水平
靈感源於統計學中的 Wasserstein 距離
近年,研究人員一直在嘗試研究無監督式的“單語”模型,不需要使用兩種語言之間的翻譯資料就可以實現語言的直接翻譯。
該模型利用了一個測度論裡的概念——Gromov-Wasserstein 距離(以下簡稱 Wasserstein 距離)。這一概念首次提出時用來進行圖形匹配。Wasserstein 距離一般用於描述兩個分佈之間的距離,通俗來說,如圖二所示的例子中,每個長方形表示土塊,想把 P 圖中的土移成 Q 圖中土的形狀,有很多種方案。每一種方案可以對應於兩個分佈的一種聯合概率分佈,推土代價被定義為移動土的量乘以土移動的距離,在所有的方案中,存在一種推土代價最小的方案,這個代價就稱為兩個分佈的 Wasserstein 距離,也被成為推土機距離(Earth-Mover Distance),這個推土機問題也成為最優運輸(Optimal Transport)問題。

圖丨推土案例
詞嵌入(word embedding) 是一種詞的型別表示,將每種語言的所有詞彙對映到實數向量空間中去,經過訓練之後,詞義相近的詞在向量空間中的位置也比較接近。可以把單詞向量在向量空間中的分佈看做一種聯合概率分佈,不同的語言表示不同的分佈空間,而從一種語言到另一種語言的翻譯可以看做是求分佈之間的距離。這一概念與前文提到的求 Wasserstein 距離概念類似。研究人員將這種技術應用在兩種語言表示單詞對應向量(一列數字)的詞嵌入裡,如此一來,模型就會在兩個語言的詞嵌入中通過尋找相對距離最接近的單詞,快速對齊單詞或向量,也就意味著直接的翻譯。
在實驗中,這個模型與目前最優的單語模型準確率接近,甚至更好、速度更快,更重要的是新模型僅使用一小部分計算能力。下圖是論文中給出的幾個模型與本文模型的比較資料。可以看出,本文在多個語言翻譯任務上取得了與之前最佳模型相近甚至超過之前最佳模型的結果。而在耗時上,論文提到,由於本文使用的是 CPU 訓練的,模型在 CPU 架構執行速度與 GPU 架構的執行速度往往有數倍甚至數十倍的差距,考慮到這一點,本文的訓練速度要遠遠快於其他無監督學習模型。

圖丨本文的模型與之前幾個最佳模型在 5 個不同翻譯任務上的訓練結果的對比。注:之前的工作是基於 GPU 訓練的耗時統計,而本文的工作是基於 CPU 訓練的耗時統計。
該論文的共同作者、CSAIL 研究員 Tommi Jaakkola,及電氣工程和計算機科學系和資料、系統和社會研究所的教授 Thomas Siebel 表示,“該模型將兩種語言中的單詞視為一組向量,並在保留相對關係的基礎上將一種語言的向量對映到另一語言裡。這種方法可以幫助翻譯語料缺乏的語言或方言,只要它們有足夠的單語內容。”
論文第一作者、CSAIL 博士生 David Alvarez-Melis 也表示,該模型代表了機器翻譯的主要目標之一,即完全無監督的單詞對齊。“如果你沒有任何兩種語言的對齊語料(一一對應的翻譯資料),你可以通過對映兩種語言的向量,並利用這些向量之間的距離,對齊它們。”
更重要的是相對關係
對於無監督的機器翻譯來說,對齊詞嵌入並不是一個新概念。
有一些研究在訓練神經網路模型中,直接在兩種語言的詞嵌入或矩陣中匹配向量,但是這些方法在訓練期間需要進行大量微調以使對齊完全正確,非常低效和耗時。
而基於關係距離測量和匹配向量是一種更加有效的方法,不需要太多的微調。無論單詞向量落在給定矩陣中的哪個位置,單詞之間的關係(即它們的距離)都將保持不變。例如,“父親”的詞向量可能落在兩個語言矩陣的完全不同的區域中。但“父親”和“母親”的向量的距離很可能一直比較接近。
“這些距離是不變的,”Alvarez-Melis 說,“通過檢視相對距離,而不是向量的絕對位置,那麼你可以跳過對齊並直接匹配向量之間的對應關係。”
這就是 Wasserstein 距離派上用場的地方。該技術已被用於電腦科學領域,比如幫助在圖形設計中對齊影象畫素。Wasserstein 距離可以利用不同度量測度空間的相對不變數,通過比較不變數來進行匹配。這個指標看起來似乎是“量身定做”給單詞對齊任務的。Alvarez-Melis 說:“如果在一個空間中有一些點或詞聚集,那麼 Wasserstein 會自動嘗試找到另一個空間中相應的點叢集。”
對於模型訓練和模型測試,研究人員使用了一個公開的單詞嵌入資料集,稱為 FASTTEXT,具有 110 種語言對。在這些詞嵌入中,上下文中頻繁共現的單詞的向量在空間中會很接近。“母親”和“父親”這兩個詞通常會在一起,但兩者距離“房子”這個詞都會更遠。
提供一種“軟翻譯”概念
該模型可以注意到彼此關係很接近,但又與其他詞明顯區別的詞向量,並可以指定在另一個詞嵌入中類似距離的向量對應的概率。這有點像“軟翻譯”。
Alvarez-Melis 說:“因為它不是僅僅返回一個單詞的翻譯,而是告訴你這個向量或單詞與其他語言中某個區域裡對應位置的一些單詞之間,有很強的聯絡。”
比如一年中的月份詞彙,在很多語言中這些表示月份的詞會聚集在一起。該模型將看到一組 12 個向量,這些向量在一個詞嵌入中聚集,在另一個嵌入中也會有非常相似的聚集關係。
Alvarez-Melis 說:“該模型不知道詞表示哪個月份,它只知道有一組 12 個點與另一種語言中的 12 個點對齊,而且它們與其他單詞明顯不同,所以它們可以很好地結合在一起。通過找到每個單詞之間的這些對應關係,就可以同時對齊整個空間。”
Jaakkola 表示,研究人員希望這項工作可以作為一種“可行性檢查”來將 Wasserstein 方法應用於機器翻譯系統,以便更快、更高效地翻譯,並能推廣到更多語言的翻譯中去。
另外,該模型一個可能的好處是它自動產生一個值,可以解釋為在數學尺度上量化語言之間的相似性。研究人員表示,這可能對語言學研究有用。
該模型計算兩個語言詞嵌入中所有向量彼此之間的距離,這種距離取決於句子結構和其他因素。如果向量距離接近,它們的分數將接近 0,而距離越遠,分數越高。例如,法語和義大利語等類似的浪漫語言得分接近 1,而古漢語與其他主要語言得分在 6 到 9 之間。
Alvarez-Melis 說:“這給大家提供了一個簡單的數字,很好地表達語言之間的相似度,並且可以用來描述語言之間的相對關係。”
本文 Wasserstein 距離的引入可以為無監督機器翻譯領域提供一種新的思路,作者利用 Wasserstein 測度理論,從數學角度論證了詞嵌入對齊問題和最優運輸問題的一致性和區別。而且利用 Wasserstein 距離對齊詞嵌入可以大大加快無監督機器翻譯的訓練速度,對機器翻譯領域也是一個很好的啟發。
近年來各大公司均在機器翻譯有所發力。谷歌利用其海量的語料資料和巨大的 AI 算力,在 16 年徹底拋棄統計機器翻譯轉為神經機器翻譯之後,翻譯質量顯著提高。

(來源:麻省理工科技評論)
谷歌在近幾年提出應用在機器翻譯的 Attention 機制以及 Transformer 模型也都逐漸應用在自身的機器翻譯系統裡。在無監督機器翻譯領域,谷歌提出利用中間語言做翻譯橋樑,可以達到多語言翻譯同時訓練的目的。
微軟除利用對齊語料訓練的監督式機器翻譯模型之外,其研究院也提出了一些無監督機器翻譯方法,如前文提到的對偶學習、聯合訓練,以及推敲網路(Deliberation Networks)和一致性規範(AgreementRegularization)。微軟將這幾種技術運用在其機器翻譯系統中後,在中英翻譯測試集上,甚至達到了與人類翻譯匹配的水準。
Facebook 也在今年提出了一種全新的無監督機器翻譯方法,使用了旋轉對齊詞嵌入、迭代回譯和去噪等方法,在英法等翻譯任務上取得了最佳的結果。
雖然各大公司都生成自己的翻譯模型超過了人工翻譯,但在實際運作過程中效果很難讓人信服。
大多數所謂的超越人類,只是在特定資料集的特定指標上超過人類得分而已,目前的機器翻譯距離人類水平還有不少差距,只靠海量語料資料和計算力的堆疊也很難說是機器翻譯發展的正確方向。
近年來也有一些關於詞嵌入的研究,比如 CoNLL(自然語言處理頂會之一)2018 的最佳論文說,“詞嵌入能獲得的資訊遠比我們想象中的要多得多”,本文在詞嵌入中引入 Wasserstein 距離,這種對詞嵌入的探索也會帶來一些啟發式思考。
Model paves way for faster, more efficient translations of more languages