為什麼AI的翻譯水平還遠不能和人類相比?
https://mp.weixin.qq.com/s/0koIt-qu9IOVxNhbFcZr1Q
作者 | SHARON ZHOU
譯者 | 王天宇
編輯 | 2812
出品 | AI 科技大本營
【導讀】前一段時間,大家都在熱議 Google 的翻譯系統出現了一些相當奇怪的結果,例如下圖呈現的是最被大家談及的一個翻譯結果。
後來 Google 發言人也對包括資料在內等因素做出瞭解釋(“這只是一個將無意義的話語輸入系統然後產生無意義輸出的功能”),隨後界內一些技術人員也發表了分析與評論,表示這可能與 Google 採用的 NMT(神經機器翻譯) 技術有關。
然而經過這一系列事件過後,大家又重新開始思考一個問題:AI 的翻譯水平真的已經可以和人類媲美了嗎?而本文的作者從 NMT 技術出發,分析了這項技術仍存在的問題,給出了自己明確的態度及答案:AI的翻譯水平還遠不能和人類相比。
最近,諸多媒體都報道了有關人工智慧的翻譯已經可以達到人類譯者水平的新聞,如:
- The Verge – Google's AI translation system is approaching human-level accuracy
The Verge – 谷歌 AI 翻譯系統的準確度趨近於人類
- Quartz – AI-based translation to soon reach human levels
Quartz – 基於人工智慧的翻譯即將達到人類水平
- ZDNet - Microsoft researchers match human levels in translation news from Chinese to English
ZDNet - 微軟研究員表示,機器翻譯中文新聞的水平可與人類匹敵
這一顯著突破源於神經機器翻譯(Neural Machine Translation, NMT)的出現,該方法使用神經網路來進行機器翻譯。這項技術應用起來非常出色,是因為它有處理大規模翻譯資料的能力。谷歌、Facebook 等大型科技公司在過去幾年都引入了 NMT,並開發出了較高水平的翻譯功能。
一個例子:引入 NMT 後,谷歌翻譯的水平有明顯提升
但 NMT 系統真的可以像上述題目說的那樣,已經可以和人類譯者相比了嗎?還差得遠呢。我們發現,目前的 NMT 系統並沒有他們所說的那麼好用,他們忽視了翻譯中的許多關鍵問題。
▌什麼是 NMT?
NMT 在整個 AI 領域中的位置
機器翻譯(MT)是 AI 的一個分支,它致力於通過軟體來進行不同語言之間的翻譯。神經機器翻譯(NMT)是一種較新穎的方法,它利用神經網路實現機器翻譯。神經網路可以被訓練,對資料進行模式識別,從而將輸入資料轉換為我們所需要的形式。接下來,我們看一個有關 NMT 系統的例子:
一個例子:將法語翻譯成英語,引入 NMT 後質量有所提高
如果要將一句法語翻譯成英語,NMT 的執行過程如下:先把需要翻譯的法語句子輸入網路,其中每個單詞都會被編碼成由數字組成的向量,這樣網路才能對其進行處理。接下來,這些數字經過一系列數學公式的計算,最終生成一個新的數字序列,這個序列就代表了要輸出的英文句子。
除了上述過程,在實際情況中,還有幾個重要步驟:
- 在進行翻譯前,人類工程師需要決定網路的具體結構;
- 工程師若要執行這樣的網路,需要使用具備強大處理能力的計算機;
- 網路需要基於大量的語料資料,進行反覆訓練,才能具備合格的翻譯水平;
- 最後,在測試 NMT 系統過程中,工程師要使用訓練資料集中沒有的語句進行測試,以確保系統在處理外部資料時也能正常工作。
▌強大的神經網路來源於強大的資料
引入海量資料後,深度神經網路的表現超過了其他模型
神經網路近期獲得的成功源於大規模資料的出現。當有了足夠多的資料作支撐,深度神經網路的提升尤為明顯。同時,網路達到足夠的深度,NMT 系統翻譯的語句相比於過去技術翻譯的結果也更為流暢。這裡的“流暢”是指,輸出的文字不會過於生硬,甚至有時候會被認為是人工翻譯的結果。
▌NMT 存在什麼問題?
回想文章開頭提到的幾個題目 -- NMT 聽起來極其卓越,但它真的可以與人工翻譯相比嗎?根本不可能。事實上,與人類相比 NMT 在很多方面都存在缺陷。
這些缺陷可歸為三類:可靠性、記憶力和判斷力。
- 可靠性:這可能是最令人擔憂的一點,NMT 翻譯並不可靠。NMT 系統無法保證準確度,常常出現漏掉否定詞、整個單詞甚至整個短語的情況。
- 記憶力:NMT 系統還有嚴重的短期記憶缺陷。目前,我們所建立的系統每次只能翻譯一句話,導致其忽略了上文中可能包含的資訊。
- 判斷力:NMT 系統對外部的資訊與知識幾乎沒有判斷能力。對翻譯工作來說,把握一段內容在特定語境中的理解是很重要的,但對機器來說這很難做到。
在接下來的內容裡,我會闡述有關這三個缺陷的細節。
▌可靠性
NMT 無法檢查其輸出的資訊是否真實。例如,NMT 系統可能漏掉否定詞或整段資訊。這些錯誤會導致什麼後果呢?
“The US did not attack the EU! Nothing to fear,”
這是著名報紙 Le Monde 中用法語報道的內容,然後機器翻譯成英語的結果是:
“The US attacked the EU! Fearless.”
試想象,如果這樣錯誤的翻譯遍佈網際網路,在假新聞病毒式傳播之前我們來得及更正嗎?令人沮喪的是,這樣的災難幾乎無法挽回。
▌記憶力
當前的 NMT 系統還有一個明顯的不足:每次只能單獨翻譯一個句子。這意味著機器並不知道它們當前翻譯的句子之前的內容。而作為人類,我們閱讀文章的時候會聯絡上下文。
那麼為什麼我們在訓練 NMT 系統時,每次只用一個句子而不是整段文件呢?這裡面有技術原因:首先,對神經系統來說,讀取一段長文件,儲存所有資訊並快速呼叫都很困難;其次,當輸入的資訊量過大時,系統執行的時間也會更長。所以為了提高效率,我們在訓練過程中都使用了單獨的語句。
總之,不能聯絡上下文是 NMT 的主要問題,尤其對於翻譯一個故事來說至關重要。講故事是人類的行為,是創造力、智慧和表達的結合,也因此將我們與動物區分開來。如果 AI 翻譯系統連有條理地翻譯一個故事都做不到,更不用說文法上是否優雅,怎麼能說它們達到了人類的水平呢?
▌判斷力
假設你在讀一篇關於音樂會的文章,然後使用 NMT 系統把英語翻譯成法語,發給了你講法語的朋友。在英文原文中,文章記錄了對許多音樂會參與者的採訪,其中包括一位年輕人的感慨:
“I’m a huge metal fan!”
但這句話被翻譯成了:
“Je suis un énorme ventilateur en métal” (“I’m a large ventilator made of metal.”)
在這篇文章中,系統並不知道 "metal fan" 是指熱愛金屬音樂的一類人,直接翻譯成了由金屬製造的通風裝置。
這個問題在機器發展初期就存在了,但至今無法解決。早在 1958 年的相關論文中就提到了該問題,這裡有一個經典的例子:
The box was in the pen.
對此 NMT 系統會被 "pen" 這個單詞困擾:它在這裡指寫字的工具還是圍欄呢?
對 NMT 系統來說,關於世界的常識知識對翻譯來說尤為重要。然而,對這些知識全部進行編碼以及從大量資料中提取都是很困難的。我們需要一個有自主判斷力的機制,並將常識知識引入到神經網路中。
▌什麼是好的翻譯?
我們應該如何評估機器翻譯系統的水平?目前,最常用的方法是 BLEU score。我們把機器翻譯出的內容與人工翻譯的內容做對比,分別計算其 BLEU 分數。如果機器翻譯結果中的單詞和短語與人工的結果相似度很高,那麼系統就會得到較高的 BLEU 分數。
BLEU score 是一種簡單卻有效的翻譯評估方法,尤其在評估效能低的系統時。然而研究者發現,BLEU score 也經常與人類的觀點不同。這意味著 BLEU 指標只能在若干低效能系統中挑選出最佳的一個,而面對效能更好的系統進行評估時比較吃力。
相比於 BLEU 評估方法,對翻譯結果直接進行人工評估的方法更加出色,但也並非沒有缺點。關於人工對機器翻譯進行評估,存在兩個不可忽視的問題:
- 人工評估不是自動的,所以成本較高且效率低。
- 人工評估往往會出現分歧。這個問題不僅存在於 BLEU 方法與人類之間,也存在於人類評估者之間。
總地來說,雖然人工評估效果更好,但它需要很高的成本,同時要求儘量不能出錯。進一步來說,在將 NMT 系統與人類譯者做對比時,要考慮到評估機制的限制因素。
▌我們仍在繼續努力!未來會如何發展?
NMT 正在飛速發展,新的進步與突破也在被頻繁報道著。新的研究正致力於解決以上提出的所有問題:可靠性、資料偏差、無意義輸出、記憶力、對常識的判斷力以及評估標準。
過去幾年,NMT 在表現和效率方面都有所突破。這源於新系統不再需要連續處理資料,如按照從左到右或從右到左的順序,從而使我們可以同時訓練更多的資料,最後生成更合理的翻譯結果。
同時,我們可以期待會有越來越多關於新研究的報道。哈佛的 OpenNMT -- 一個可用於 LuaTorch、PyTorch 和 Tensorflow 的開源神經機器翻譯工具包,正在迅速融入新的方法,以便於大家可以建立最好的翻譯系統。由前谷歌研究員開發的新型商業系統 deepL,聲稱已經超越谷歌的翻譯系統。這是一個發展迅速的領域,這也是一個見證 NMT 不斷突破的時代。
原文連結:
https://www.skynettoday.com/editorials/state_of_nmt
——【完】——