1. 程式人生 > >三分鐘看懂神經網路機器翻譯

三分鐘看懂神經網路機器翻譯

神經網路機器翻譯 (NMT) 已成為本地化行業中最熱門的話題之一,與以往基於統計的機器翻譯 (SMT) 相比,可以使翻譯質量提升 30% ,同時解決了遠距離語言對的複雜性問題,如中文到英語、日語到英語等。
在這裡插入圖片描述
SDL 的一項近期調查顯示,61%的受訪者認為機器翻譯至關重要,然而找到適合企業自身業務的機器翻譯解決方案並非易事。今天小編就邀請到了 SDL AI 和機器學習解決方案副總裁 Mihai Vlad 先生,和大家討論機器翻譯近期的突破和 SDL NMT 的獨特之處。
在這裡插入圖片描述
Q : 相比 SMT,NMT 的譯文更加自然,您能否解釋一下兩者之間的差異?

Mihai:SMT 和 NMT 的演算法和體系結構有很大的不同。以自動駕駛為例,基於統計的方法使用特定道路的駕駛資料進行培訓,汽車可以在特定道路上駕駛得很好。而基於神經網路的方法,不與特定的道路繫結,使用不同道路的駕駛資料進行培訓,汽車在任意道路上都駕駛得很好

MT 的發展實際上始於 20 世紀 70年代基於規則的機器翻譯,你可以對一組規則進行編碼,但很快就會意識到不同的語言對有太多的例外情況,模型變得越來越複雜。1993 年,機器學習被引入到機器翻譯中,演算法可以通過學習雙語語料得到提升,而不是通過預先的規則設定
在這裡插入圖片描述

Q : 人工智慧熱度持續上升,每家公司都聲稱具備人工智慧技術。機器翻譯是 SDL 多年來在人工智慧方向開拓的應用之一,那麼在機器翻譯上積累的經驗將如何幫助 SDL 開發其他與 AI 的相關應用呢?

Mihai:人工智慧旨在讓計算機複製人類的行為。看、聽、行動、計劃都是典型的人類行為,而其中最複雜的任務是溝通,最難的是具備翻譯的能力。大約 40% 的全球人口只能說一種語言,43% 可以說兩種語言,13% 可以說三種語言,3% 可以說四種語言,只有 1% 可以說四種以上語言。

我們可以移動、跑步,最終協調我們的動作駕駛汽車,但我們不能掌握地球上所有的語言。讓機器具備這種能力是非常高的要求。這就是人工智慧研究人員將解決 MT 問題看作是 “AI complete” 的原因。

在這裡插入圖片描述
Q: 很多面向消費者的線上機器翻譯都使用了開源的技術,為什麼企業要考慮使用企業級的機器翻譯解決方案呢?

Mihai:與 SMT 相比,NMT 程式碼更緊湊複雜,一些開發人員使用開源專案,用幾百行程式碼就可以建立一個能夠通過資料進行學習的翻譯工具。然而,企業解決方案的需求遠遠超過了幾百行程式碼。可擴充套件、可整合和通過定製提升質量,只是企業使用者在 NMT 程式碼中需要實現的很少一部分示例。其他例如,通用 NMT 難以很好地處理文件格式,而保持文件格式是任何想要維護文件完整性的組織的關鍵要求;通用開源 NMT 技術有時還會重複翻譯一些詞。
在這裡插入圖片描述


然而,通用 NMT 的一個關鍵問題是訓練和翻譯成本比 SMT 高几個數量級。而且想要部署這種系統的企業可能會因此而支付大筆硬體費用。

簡而言之,使用開源 NMT 系統,你想要得到一個流暢的翻譯系統,代價非常高昂,並且在翻譯過程中會產生相當多的錯誤。