陷入“人機耦合”的AI同傳:向人類偷師、與人類共事
最近科技圈裡火了一個詞叫“人機耦合”,主要原因當然是因為此前科大訊飛人工同傳“假扮”AI同傳,而科大訊飛將這種人工寫出譯文、機器發音的方式稱為人機耦合,而使用者們則用這個詞表示對科大訊飛的調侃。
這也再度加大了AI同傳在機器翻譯領域中的關注度相,除了大眾印象中的造假,對於行業內來說,AI同傳任務處理上實時性、專業度的要求都極高,容錯率也相對更低,在機器翻譯領域算是一個難度很大的任務,甚至有人稱之為機器翻譯的“聖盃”。解決好AI同傳問題,也就標誌著這家企業在機器翻譯技術已經達到一定高度,解決其他問也也不在話下。
是聖盃,自然少不了挑戰者。除了孜孜不倦的獨角獸,微軟、百度、谷歌等海內外的AI大廠也都在不斷攻克這項難題。但今天我們想來談談的是,AI同傳真正的“人機耦合”到底應該是什麼樣?
是什麼為AI同傳送上聖盃
AI同傳之所以難度能夠達到“聖盃級別”,還是來自於語言本身的複雜程度和不同語言之間的巨大差異。
給前者舉個例子,對於機器翻譯,尤其是語音轉碼文字的部分來說一個很大的難點就是同音不同字,有其有的詞同音不同字並且意義差距很大。比如南方or男方。
後者則主要體現在語序的差異上,中文上說“她送給我的花很美”,英文上卻說“The flowers she gave me are beautiful”, 在不聽完整個句子之前,是很難給出準確翻譯結果的,因為在在中文中作為主語我“花”出現在“她送給我”這一定語之後,可英文中主語“The flowers”卻出現在句子的開頭。
所以目前大多數AI同傳,要麼是等待一個完整的句子說完後,再進行翻譯,要麼是根據當前識別結果進行翻譯,然後隨著識別字數的增加,不斷修正結果。
不管哪種方式,基本上都帶有一個句子的延遲時間。尤其是遇到同音不同字的問題時,很多同傳系統只要認定了第一次識別的語音,很難再根據語境調整語音和文字之間對照。這就有可能導致整個句子在翻譯時出現嚴重的誤差。
可我們應用同傳,不就是為了和整場對話同步獲得資訊嗎?想象一下,在重要商務場合中你和合作夥伴談笑風生,然而合作伙伴說“前門樓子”AI同傳卻告訴你“胯骨軸子”……
總之由於應用場景相對苛刻,AI同傳的技術遲遲都沒能達到應用條件。
萬能的人類老師,是如何做同聲傳譯的?
那麼人類又是如何解決這些問題的呢?
首先,人類譯員在進行同傳翻譯時往往會先做大量的準備工作,瞭解應用領域的專業術語,本質上是對自己的詞彙庫進行一個“收斂”,又對該專業領域的用詞進行學,減少同音近義、一詞多義時發生翻譯錯誤的可能。
建立在準備的基礎上,譯員在進行翻譯時會有一定的預測性,例如“The flowers she gave me are beautiful”這句話的翻譯中,看到“The flowers”這個單詞,譯員就可以結合上下文和語境去判斷花一定是別人贈送來的,所以可以同步翻譯出“她送給我的花”。這樣一來就可以趕在句子說完前就進行翻譯,儘可能的保證即時性。
可即便如此,人工同聲傳譯也並不是完美的。由於資訊量巨大,譯員只能在保證速度的前提下犧牲一部分質量。據瞭解,同傳譯員的譯出率僅有60-70%左右,即講話人講了100個句子,僅有60-70個句子的資訊被完整傳遞給聽眾。同時由於需要高度精神集中,譯員往往需要每15-20分鐘就需要換班休息。
向人類偷師,哪些機器翻譯技術正在人機耦合?
而這些人類在工作時體現的智慧和優勢,往往會被人工智慧學習和利用。我們可以發現,很多機器翻譯技術已經開始學會利用“背景知識”和“預測”這兩個關鍵邏輯了。
從背景知識的層面來講,人類之所以能夠分辨同音近音字,是因為對於語境和背景知識有著充足的瞭解,把不符合當前詞彙庫的同音詞“剔除”了。
所以現在有一些機器翻譯技術開始應用上了這樣的解決方案:提升容錯率,忽略語音-文字轉碼階段的錯誤,進而去提升文字翻譯階段的正確率。
例如百度同傳的“語音容錯”的對抗訓練翻譯模型,重點就在於有意在訓練資料集中加入針對性的噪聲資料,這樣即使模型接受到錯誤的語音識別結果時,也能給出正確的譯文。什麼叫“針對性”的噪聲資料呢?就是把成對、成組出現的噪聲詞一起收錄,比如前文提到的南方和男方,再將源語言句子進行替換,把“南方天氣很潮溼”替換為“男方天氣很潮溼”,而兩個句子的結果都設定為“The weather is very humid in the south”,一起用作訓練從而提升模型的容錯能力。
而清華大學也曾經發布過一篇論文,推出了一種應用於語音識別的快速容錯演算法,則是通過前序對話劃定詞典範圍提前剪枝,限制了演算法的搜尋空間。例如雙方的對話提到“電話號碼”,那麼接下來語音對話中的“yī èr sān sì”就會更傾向於轉碼成“一二三四”,而不會在“醫衣依……”等等詞典中進行匹配搜尋。
至於預測性,在機器翻譯領域中應用的也不少。在NLP領域中應用頗多的文字生成技術,已經可以做到補完缺詞句子的工作。
像Facebook推出的無監督機器翻譯,就是對語言模型進行區域性編輯,圈定一個可嵌入的單詞範圍,再為不同的單詞排序打分,流暢的句子得分要高於語法錯誤和不通順的句子。如果應用在AI同傳中,也可以在演講者的句子完成前以更快的速度進行翻譯。
百度也推出了一種名為“wait-k words”的技術,即等待講話時後的第k個詞開始翻譯,通過對講話者的語言風格資料進行訓練,實現預測能力。同時還可以根據不同語種之間的差異性和不同場景的需求程度來調整K值,比如西班牙語和葡萄牙語在語法上非常接近,K值就可以被調整為1或者2,極大的提高及時性。或者當使用者位於非常嚴肅的政治會議場合,K值就可以被調整為5或者更高,因此來保證嚴謹性。
去年穀歌推出的Transformer則是一個基於自注意力機制的全新神經網路架構,也是忽略單詞在句子中的先後位置,而句子中所有單詞之間的關係直接進行建模。所以一個單詞先出現還是後出現,對於自然語言處理來說影響開始沒那麼大了。
總之,這些模仿人類處理問題方式的技術突破才是真的“人機耦合”。
想捧起聖盃,AI同傳應該避免獨行
當然,即便如此,AI同傳還是面臨著很多問題。
尤其是人在口語表述時往往會帶有一些習慣性的語氣詞,AI如果通通記錄下來,會嚴重影響資訊接收的效率。就像曾經有人嘗試過在法庭使用AI速記,結果發現AI記下了通篇的“嗯、呃、那個”等等口語中的常用詞,尤其是當出庭人情緒稍有些激動時,AI速記完美的記錄下一串語無倫次時的混亂資訊。資訊量倒是加大了,可資訊價值卻很低。
人類譯員在進行翻譯時會進行書面語和口語之間的轉換,AI能否做到這種資訊的彙總和提煉?
同時口語中常常遇到的口音、結巴、地方俚語、表述水平不同等等個性化的問題,人類譯員通常可以很好的解決,最終呈現出適用於所有人閱讀的內容。就拿俚語來講,這種極具本土文化特徵的內容,有時會在兩個語種中呈現出完全不同的形態。就像“掌上明珠”和“Apple of the eye”,從字面直譯上很難找到關聯,可意義上卻相互對應。
AI模型能否高效的解決一切問題,不只適用於某一標準或某一種文化下的內容?
最重要的,大部分像“wait-k words”這樣的預測模型都要提前進行大量的資料訓練。不光應用成本高,對於很多缺乏豐富資料的小眾語種來說,還是幫不上什麼忙。
不過相比人類在同聲傳譯整個學習和翻譯過程中耗費的巨大精力,AI同傳更高效的學習能力和永不疲倦的特點仍然是巨大的優勢。所以在未來的一段時間內,AI同傳應該依靠自身優勢來承擔人類譯員助手的職責,與人類一同捧起聖盃。這才是理想狀態下的人機耦合。
機器思維與人類思維的打通:AI應用的黃金大門
其實我們能夠發現,現在機器同傳解決方案的發展方向,體現出了一種AI技術應用的有趣邏輯,即把機器思維和人類思維一起融入技術應用。
像在提升語音容錯率上,就是一種典型的機器思維。如果把解決問題分兩步,第一步是語音-文字,第二步是文字-翻譯。數學老師一定會告訴你“一步錯、步步錯”,可在機器思維中卻能實現“一步錯、結果對”,即使語音識別中錯了,機器翻譯的結果仍然是正確的。
而在預測方面,就是典型的人類思維了,結合對於事物的整體理解甚至整個世界觀,對於缺失的資訊進行預測——用我們人類的話說,就是“直覺”。而當機器也逐漸找到利用直覺的方式,它們所能解決的問題才更邁上了一個臺階。有了預測能力,才能在不同語序的語種中自我生成正確的句子。畢竟我們所處的世界不是棋盤也不是電子遊戲,缺乏明確的規則,更多時候我們是在資訊和規則雙雙不透明的前提下去解決問題。
其實在今天的AI應用上,最重要的就是人與AI的協作性,不僅僅是日常應用方面的協作,更多的是研發思維上的協作。有時能理解機器思維的差異性,才能真正找到適合機器的問題解決方案,而讓機器能夠學會人類思維,才能讓機器解決問題的方式更加配適現實世界。
就像自動駕駛的安全問題一樣,有時在交通標識上貼一張小小的貼紙,就能徹底擾亂機器的視覺系統。所以對於自動駕駛來說,更高效和安全的方法並不是像人類一樣“看到”交通標識,而是在高精地圖上提前標註好交通標識的位置。對人類與機器的感知方式進行互通和融合,幫助我們打開了很多AI產業應用的黃金大門。
有趣的是,這兩種思維之間的差異和融合,其實和語言之間的翻譯還有點接近。語法有再多差異,彼此理解了,總能一起解決問題。人機耦合,指的絕不僅僅是人類與AI有著多麼明確的分工,AI生產、人類包裝這種行為在幾十年前就已經出現並且沿用至今了,絕不是什麼值得宣揚的事。兩種思維的互動,才能稱之為真正的“耦合”。