1. 程式人生 > >巨頭紛紛押註的智能翻譯機,會是第一款成功的消費級AI硬件嗎?

巨頭紛紛押註的智能翻譯機,會是第一款成功的消費級AI硬件嗎?

font 自然語言 優勢 num span 藍牙耳機 ros 一切都 borde

到了今天,已經很少有人再提人工智能音箱了。使用率低、售價跳水、缺乏銷售數據……我們不能武斷地說智能音箱涼了,但的確不少所謂的AI企業的硬件夢碎了。

相對於一些盲目湧入AI的公司,一些科技公司似乎找到了另外一條硬件路——翻譯機。科大訊飛推出了曉譯翻譯機、谷歌推出了實時翻譯耳機,搜狗也在最近推出了搜狗旅行翻譯寶和搜狗速記翻譯筆。

開始呈現紮堆趨勢的智能翻譯機,是否會顛覆智能音箱成為下一個AI硬件浪潮?

打敗大魔王,AI消費級硬件當務之急是走出手機的陰影

我們可以先從智能音箱的前車之鑒來看,智能翻譯機最該避開哪些坑。

除了產品質量良莠不齊等等弊端之外,智能音箱最大的問題是沒有一項功能超出手機功能的子集。播放音樂、語音交互、傳達命令,這些功能其實都能在手機上很好的完成,讓智能音箱的使用率不斷被壓榨。

技術分享圖片

其實不光是智能音箱,現在開始搭載移動AI芯片的手機簡直是AI消費級硬件界的大魔王,讓很多產品毫無用武之地。智能翻譯機也是一樣,翻譯App已經能滿足大部分的消費級翻譯需求,翻譯機一方面要趕上翻譯App文字、圖片多種媒介適用的特點,另一方面還要保證離線使用、操作簡單和續航時間長,從而獲得與手機之間的差異化優勢。這很可能會成為讓智能翻譯機不會重蹈智能音箱覆轍的重要優勢。

三次叠代,什麽才是智能翻譯機的最終形態?

其實這是一個最淺顯道理,智能翻譯機的產品叠代的方向也一直朝著替代和超越翻譯App發展。

第一代智能翻譯機應該是以科大訊飛的曉譯為代表,主打隨說隨譯。這一代產品其實是最為尷尬的:雖然有強大的自然語言處理技術,可以較為準確的進行翻譯工作,但很多功能還需連接手機借助網絡才能使用。

技術分享圖片

這類作為手機外置產品的翻譯機和手機中的翻譯App比起來幾乎毫無競爭力,除了曉譯之外,同類產品還有有道翻譯蛋、全球譯等等。雖然到後來第一代智能翻譯機都增加了離線語言的種類,但比起App的拍照翻譯等功能,還是差了一截。

谷歌推出的實時翻譯耳機Pixel Buds可以被看做第二代智能翻譯機,這類翻譯機常常以耳機的形態出現,有些需要WiFi/藍牙與手機連接。同類產品還有IBM Watson和Lingmo推出的Translate One2One。實時翻譯耳機相比單純的翻譯機有著更豐富的功能,除了用作翻譯還可以當成藍牙耳機使用,並且翻譯速度更快,在雙方都配置耳機時可以很好的進行拾音和語音生成,方便交流。但大多數翻譯耳機還是作為手機外設存在,自身並不具備真正的翻譯功能,甚至谷歌的Pixel Buds只能配適谷歌Pixel手機。

技術分享圖片

而搜狗推出的搜狗旅行翻譯寶,可以說是第三代智能翻譯機了。除了提高翻譯速度和準確率外,還加入了OCR技術,讓用戶可以進行實景翻譯,並且擺脫了翻譯APP對網絡連接的依賴。

硬件與軟件的膠著戰,第三代智能翻譯機贏了嗎?

在短短的兩三年之間,市面上的智能翻譯機就已經進行了這麽多次叠代,產品形態和功能也都發生了不小的變化。同樣的,翻譯App也在不斷進行升級,從一開始的“詞典”發展到可以整句翻譯、語音翻譯和今天的拍照翻譯。你追我趕之中,這一次第三代智能翻譯機走到翻譯App前面了嗎?

首先看來,搜狗旅行翻譯寶終於做到了擺脫對手機和網絡的依賴,在離線狀態下也可以完成翻譯工作。做到這一步,就是拿下了最關鍵的賽點。在旅遊場景中,國外、交通工具上都有可能沒有網絡信號,在商務場景中,有些場合也不適合使用手機。這些需要交流,卻無法使用手機和網絡的地方,為智能翻譯機打開了不可替代的強需求市場,可以說離線功能是智能翻譯機的根深立命之本。

除了離線場景之外,智能翻譯機一直沒法超越的是翻譯App多樣化的翻譯方式。借助手機自身多傳感器的特性,翻譯App可以對文字、圖片、語音多種媒介進行翻譯,實用性更高。現在加入了拍照翻譯的第三代智能翻譯機終於扳回一城,並且在語音翻譯的拾音功能上,搜狗旅行翻譯寶有著更專業的雙麥克風陣列和降噪算法,利用語音增強技術放大原音,即使在噪音環境下也不會有誤聽誤譯的情況出現。

技術分享圖片

從價格來看,搜狗這次推出了兩款產品,一款是應用於旅遊場景的旅行翻譯寶,另一款是應用於會議、課堂場景的速記翻譯筆,兩款產品的售價分別是1498元和299元。好在智能翻譯機的售價沒有隨著產品叠代水漲船高,這一售價還是相對友好的。除了單純的售賣模式,很多旅行社也開始提供共享租賃服務,或許未來智能翻譯機會通過這一契機走進人們的生活。

高準入門檻和優質的參與者,或許才是智能翻譯機的王牌

智能翻譯機不會成為智能音箱的另一個原因,就是這一行業較高的準入門檻。

和智能音箱簡單的接收語音信號、下達指令不同,智能翻譯機的實時離線翻譯對機器翻譯、語音識別、圖像識別、語音生成甚至知識圖譜技術都有很高的要求。

技術分享圖片

就拿在海外餐館點菜使用搜狗旅行翻譯寶這一簡單的場景來說,就需要拍下照片進行圖像識別,找到其中的文字並翻譯成中文,和他人對話時,智能翻譯機需要通過定向波束掃描規避噪音,準確拾音並進行翻譯。在翻譯過程中,還需要擁有相關領域的知識圖譜,才能準確的捕捉到俚語、術語、雙關語等等人類專屬的文字遊戲。而想要這一切都在離線狀態下進行,還需要強大的壓縮技術,讓模型得以存儲終端中。

所以在智能翻譯機領域很難見到類似智能音箱的盛況:各種相關的和不相關的企業都來趕風口。目前智能翻譯機領域的參與者,基本有三類。

第一類是專業從事AI技術開發的企業,如科大訊飛和IBM Waston。第二類是擁有巨大用戶規模,通過自身產品,像輸入法、搜索等業務在知識圖譜和語音技術上建起壁壘的企業,比如搜狗、谷歌。第三類,是一些垂直研發翻譯產品的企業,像有道雲、全球譯等等。較高的準入門檻對智能翻譯機形成了一種保護,競爭對手都各有優勢,不至於出品太過劣質的產品讓市場對整個品類失望。

智能音箱留給我們最大的反思大概就是,寧願在泥土中多蟄伏一會兒,也不要開出畸形的花。如今智能翻譯機已經開始破土而出,願它能結下AI消費硬件的第一枚果實。


巨頭紛紛押註的智能翻譯機,會是第一款成功的消費級AI硬件嗎?