王小川:語言承載的知識和概念是人機交流的真正難點
新浪科技 辛苓
隨著國內出境遊的興起,翻譯機這一產品也隨之火熱起來。今年3月份, 搜狗 發售價格為1498元的“搜狗旅行翻譯寶”,就是瞄準了愈加火爆的出境旅遊市場。
一代產品推出後搜狗發現,很多商務人士、留學生等群體也對翻譯機有需求,因而對產品功能進行了升級。今年9月,搜狗推出了升級版“搜狗翻譯寶Pro”,官方定價為2499元。與市面上的主要競品相比,這款翻譯硬體的功能亮點在於離線翻譯與雲端翻譯的無差異,支援中英日韓4種語言離線互譯,42種語言的線上翻譯,並具備實景拍照翻譯功能,可以幫助使用者識別點餐、問路等各種場景下的文字資訊。
25日,搜狗公司CEO王小川以及其他高管接受新浪科技的採訪,聊了聊關於智慧翻譯行業與搜狗翻譯寶Pro。
以下節選自採訪實錄,由新浪科技整理:
新浪科技:通過試用產品,我發現二代產品在語音翻譯方面比一代提高很多,可以看出你們投入了很多心血做產品升級。但是我發現拍照翻譯還有提高的地方,搜狗翻譯機在這方面接下來會有什麼動作?
王小川:拍照翻譯這方面,搜狗App線上的影象翻譯代表了搜狗以伺服器為核心能達到的技術能力高度,那個效果是搜狗比較有自信的。現在搜狗正在把相關技術移植到翻譯機的影象識別裡面,這個工作會在10月份完成,到時候功能的升級會在升級包裡體現出來。
新浪科技:如果我對英文一點都不懂,怎樣判斷翻譯結果是否正確?
王小川:最可能出現差錯的地方在語音識別或者是OCR這個環節,如果識別是準確的,翻譯準確度相對會高很多。所以只要螢幕上看到的中文是對的,翻過去的英文就可以放心使用。
更多的錯誤是發生在語音上面的:語音別識錯一個字,翻譯就是不可讀的。所以我們在做一件事:讓翻譯有容錯能力,去彌補當語音識別產生錯誤時對翻譯的影響。把錯誤的語音識別結果放進翻譯的模型裡去,通過錯誤的資料訓練出正確的結果。其次,在技術上從識別和翻譯兩個角度做優化。這方面技術比較前沿,目前大家還沒有做到把語音識別和翻譯結合在一起,讓翻譯去糾正語音識別的錯誤。
新浪科技:未來語音識別和翻譯的應用場景會不會更多元?
王小川:語音識別不是目的,它只是一個技術基本門檻。在人機交流的時候把人的聲音轉成文字,基於理解讓機器瞭解文字背後的意思,提供這樣的服務是下一步。搜狗人工智慧的兩大發展方向,一是自然互動,它包括“語音”、“影象表情的理解”,二是更難的“知識計算”。
在以語言為核心的人機交流過程中,語音的合成和識別相對簡單,更難的是理解語言承載的知識和概念,這種概念和知識是人類用一生去學習的,而且每個人的理解不一樣的。
所以對於知識和概念的理解去做計算是比識別更復雜的事情。
我們要做問答系統,問答系統並不是聽懂問題就可以,我們要去閱讀理解網際網路上的文章,找到裡面的邏輯關係的詞,然後給出一個答案。因此知識計算是更難的工作,而翻譯還是知識計算裡最簡單的一件事情。以語言為核心,就是一方面做溝通的工作,另一方面是做概念的沉澱和知識計算使用,這是搜狗很努力地在做的事情。