1. 程式人生 > >MIT開發新型無監督語言翻譯模型,又快又精準

MIT開發新型無監督語言翻譯模型,又快又精準

MIT開發新型無監督語言翻譯模型,又快又精準

麻省理工學院的研究人員開發了一種新穎的“無監督”的語言翻譯模型,這意味著它無需人工註釋和指導即可執行,這可以使基於計算機的更多語言翻譯更快,更高效。

谷歌,Facebook和亞馬遜的翻譯系統需要訓練模型來查詢數百萬文件中的模式,例如法律和政治文件或新聞文章,這些文件已被人類翻譯成各種語言。給定一種語言的新單詞,然後他們就可以找到另一種語言中匹配的單詞和短語。

但是這種翻譯資料耗時且難以收集,並且對於全世界使用的7000種語言中的許多語言而言可能根本不存在。最近,研究人員一直在開發“單語”模型,這些模型使兩種語言的文字之間進行翻譯,但兩者之間沒有直接的翻譯資訊。

本週在自然語言處理經驗方法會議上發表的論文中,麻省理工學院電腦科學與人工智慧實驗室(CSAIL)的研究人員描述了一種比這些單語模型執行得更快,更有效的模型。

該模型利用統計中的度量,Gromov-Wasserstein距離,本質上是測量一個計算空間中的點之間的距離,並將它們與另一個空間中的類似距離點進行匹配。他們將這種技術應用於兩種語言的“單詞嵌入”,這兩種語言的詞表示為向量(基本上是數字陣列),具有相似含義的單詞聚集在一起。在這樣做時,模型在兩個嵌入中快速對齊單詞或向量,這兩個嵌入通過相對距離最密切相關,這意味著它們可能是直接翻譯。

在實驗中,研究人員的模型與最先進的單語模型一樣準確,有時更準確,重要的是速度更快,而且僅使用一小部分計算能力。

“該模型將兩種語言中的單詞視為一組向量,並通過基本保留關係將這些向量從一組對映到另一組,”該論文的共同作者,CSAIL研究員Tommi Jaakkola表示,“這種方法可以幫助翻譯低資源語言或方言,只要它們有足夠的單語內容。”

CSAIL博士生第一作者David Alvarez-Melis表示,該模型代表了機器翻譯的主要目標之一,即完全無監督的單詞對齊。“如果你沒有任何與兩種語言相匹配的資料,你可以對映兩種語言,並使用這些距離測量,對齊它們。”

關係最重要

對於無監督的機器翻譯來對齊字嵌入並不是一個新概念。最近的工作訓練神經網路直接在兩種語言的詞嵌入或矩陣中匹配向量。但是這些方法在訓練期間需要進行大量調整以使對準完全正確,這是低效且耗時的。

另一方面,基於關係距離測量和匹配向量是一種更加有效的方法,不需要太多微調。無論單詞向量落在給定矩陣中的哪個位置,單詞之間的關係(即它們的距離)都將保持不變。例如,“父親”的向量可能落在兩個矩陣的完全不同的區域中。但“父親”和“母親”的載體很可能總是緊密相連。

“這些距離是不變的,”Alvarez-Melis說,“通過檢視距離,而不是向量的絕對位置,那麼你可以跳過對齊並直接匹配向量之間的對應關係。”

這就是為什麼Gromov-Wasserstein能派上用場,該技術已被用於電腦科學,例如幫助在圖形設計中對齊影象畫素。但是這個指標看起來似乎是為詞對齊量身定做的,Alvarez-Melis表示,“如果在一個空間中有一些點或詞靠的很近,那麼Gromov-Wasserstein會自動嘗試在另一個空間找到相應的點叢集。”

對於訓練和測試,研究人員使用了一個公開可用的單詞嵌入資料集,稱為FASTTEXT,具有110種語言對。在這些嵌入和其他嵌入中,在類似上下文中越來越頻繁出現的單詞具有緊密匹配的向量。“母親”和“父親”通常會在一起,但距離“房子”更遠。

提供“軟翻譯”

該模型注意到與其他向量密切相關但不同的向量,並且指定了在另一個嵌入中類似的距離向量將對應的概率。這有點像“軟翻譯”,Alvarez-Melis說,“因為它不是僅僅返回一個單詞翻譯,而是告訴你這個向量或單詞與另一種語言中的單詞有很強的對應關係。”

一個例子是一年中的月份,它們以多種語言緊密結合在一起。該模型將看到一組12個向量,這些向量在一個嵌入中聚類,在另一個嵌入中聚類非常相似,“該模型不知道這些是月份,”Alvarez-Melis說,“它只知道有一組12個點與另一種語言中的12個點對齊,但它們與其他單詞不同,所以它們可能很好地結合在一起。通過找到每個單詞的這些對應關係,它然後同時對齊整個空間。”

Jaakkola說,研究人員希望這項工作可以作為“可行性檢查”,將Gromov-Wasserstein方法應用於機器翻譯系統,以便更快,更高效地執行,並獲得更多語言的訪問許可權。

另外,模型的一個可能的好處是它自動產生一個值,可以解釋為在數字尺度上量化語言之間的相似性。研究人員表示,這可能對語言學研究有用。該模型計算兩個嵌入中所有向量彼此之間的距離,這取決於句子結構和其他因素。如果向量都非常接近,它們的分數將接近0,並且它們越遠,分數越高。例如,法語和義大利語等類似的浪漫語言得分接近1,而漢語與其他主要語言得分在6到9之間。

Alvarez-Melis說:“簡單的數字可以說明語言之間的相似程度,並且可以用來描述語言之間的關係。”

原文連結:MIT開發新型無監督語言翻譯模型,又快又精準

本文為ATYUN(www.atyun.com)編譯作品,ATYUN專注人工智慧

請掃碼或微信搜尋ATYUN訂閱號及時獲取最新內容