百度輸入法開啟AI輸入時代,瞄準Z世代
從機械鍵盤被髮明開始,人們對於輸入法就有著特殊的感情,一面對“鍵盤”有太多的不捨,即便全觸屏的智慧手機早已普及,輸入時依舊要依賴於“虛擬鍵盤”;一面又急於尋找更為高效的輸入方案,比如篤定語音互動將成為主流的人機互動方式。
1月16日的百度輸入法釋出會上,百度輸入法AI探索版正式亮相,不僅將全語音輸入作為預設輸入方式,並開啟了調動表情、肢體的全感官輸入2.0時代。曾經困擾人們多年的鍵盤輸入糾結症,終於有了新答案。
輸入法AI化,先來解決三個痛點
智慧手機的誕生已經有了十多個年頭,可為何語音輸入取代鍵盤的一幕直到2019年才開始出現?要回答這個問題,先要看語音輸入面臨的三個痛點:
1、準確率能否再高一點?
早在幾年前,百度、科大訊飛等相繼宣佈語音識別準確率高達97%,並不懷疑數字的真實性,Attention模型已經較為成熟,各家也在實驗室裡進行了大量的機器學習,但在實際應用中卻存在兩個使用者體驗上的“盲點”。
一個是流式解碼的問題。諸如谷歌LAS等傳統Attention模型,大多是基於整句的建模,客觀上需要整句語音上傳到伺服器後,才開始聲學打分計算和解碼,勢必會產生較長的使用者等待時間。
另一個是長句建模的精度下降。Attention模型的核心思想是基於整句的全域性資訊,通過機器學習選擇和當前建模單元最匹配的特徵,於是句子越長,識別難度就越大,出錯的概率越高,錯誤前後傳導的概率也越高。
為了解決這些“盲點”,百度創新性地提出了流式多級截斷注意力模型SMLTA,先使用CTC演算法對連續語音流進行截斷,然後對每一個階段的語音進行建模,把原來整句的建模,變成了區域性語音小段的Attention建模,同時引入多級Attention機制避免CTC的插入刪除錯誤對系統的影響,最終在識別精度上提升了15%,並在保持計算量、解碼速度等方面和傳統CTC模型持平。
2、離線狀態下該怎麼玩?
作為一款基礎工具,輸入法要應對各種場景,比如在地鐵、電梯等訊號弱,或者人流密集的環境下,傳統的“虛擬鍵盤”似乎不會有太多影響,全語音輸入卻要回答另一個疑問:如何在離線狀態下保證語音識別效率?
為了解決使用者的多元輸入場景需求,百度輸入法持續優化了Deep Peak 2系統,除了SMLTA上的創新,還大幅提升了離線語音的識別準確率,相較於行業平均水平提升了35%,不斷縮小離線識別和線上識別在準確率上的差距。
百度語音技術總監高亮在釋出會上進行了一場離線PK,參賽選手分別是百度輸入法AI探索版、訊飛輸入法和搜狗輸入法,結果顯示百度輸入法的識別準確率和識別速度要明顯高於另外兩家友商的產品。或許離線識別還不夠完美,至少百度輸入法已經可以滿足離線場景先的精準輸入。
3、語言混合輸入如何解?
語言在不斷進化,年輕人群尤為如此,明明在說漢語,卻夾雜著各種英文詞彙,有時還會蹦出兩個日語或韓語單詞;有時候前一句是普通話,下一句可能冒出一句家鄉話……輸入法的使命儼然是順應潮流,那麼也就必須解決漢語和外語、方言與方言、方言和普通話來回切換等特殊場景。
常見的解決方案是“手動切換”,比如你想要用四川話進行語音輸入,先要到輸入法的設定中將語言設定為四川話,說普通話的時候再去切換回來。如此不僅未能解決語言混輸的問題,還進一步增加了使用者的學習成本,體驗自然不盡如人意。
百度輸入法的優勢在於,不侷限在國內市場的佈局,百度海外輸入法已經擴充到了120門語言,百度輸入法的語音團隊也在配合市場佈局持續發力,陸續上線了日語、英語、印地語、西班牙語、印度英語等語言識別,為了適應一些國家語言混輸的特點,百度輸入法很早就推出本了地語言和英語混輸的功能。有了海外市場的成熟經驗,應對國內市場的“中英混輸”自然不在話下。
此外為了解決方言混輸的難題,百度輸入法將普通話和六大方言融合成一個語音識別模型,進而實現了方言與方言、方言與普通話的混合語音輸入。截止到目前,百度輸入法還是唯一實現高精度中英文混合語音輸入、方言免切換語音輸入的輸入法產品。
為何要先於行業邁出第一步,或許會陰謀家給出“炫技”的論調,但百度語音技術總監高亮的觀點值得借鑑:“我們有一個理念,技術只有在產品上使用、讓使用者真正體驗到才是真正的技術,我們絕不會為了技術而技術。”畢竟在輸入法的取捨過程中,使用者擺脫雙手的需求早已出現,只是百度的視野會止於此嗎?
輸入多點AI,百度瞄準了Z世代
如果僅僅從創新的角度來審視百度輸入法的進化,未免會低估百度的野心,在將全語音輸入作為預設輸入方式的同時,諸如拍立活、秀場、表情秀、凌空手寫等新表達和新探索,可以說是整場釋出會的另一大焦點。
比如拍立活可以對人及動物的臉部關鍵點進行識別,利用貼圖及骨骼蒙皮技術還原出角色的3D模型,然後利用自研的面部行為編碼系統驅動角色做出豐富的表情,還可以隨意疊加各種AR表情素材,讓表情的製作更加簡單、有趣。
再比如凌空手寫功能,開創了全新的文字識別技術,區別於其他實驗室中的類似概念,百度輸入法的凌空手寫,不需要特殊的手寫筆,也不需要深度攝像頭或多目攝像頭等硬體支援,普通的RGB攝像頭就可以完美支援。
由此不難看到,技術範的百度正在以自身擅長的玩法,向崛起的Z世代丟擲橄欖枝。
先解釋下什麼是Z世代,巴克萊銀行在一份報告中,將1995年後出生的人群從時間排程定義為“Z世代”,並給出了Z世代的典型特徵:數字原住民。並不難理解,Z世代自出生開始就生活在網際網路的海洋裡,對於其他年齡層的使用者而言,網際網路可能還只是生活的一小部分,在Z世代的眼中無異於生活的全部。於是相比於其他年齡層的使用者,Z世代往往是新技術、新科技、新理念的忠實擁躉。
在CBNData釋出的《2018網際網路消費生態大資料報告》中,給95後貼上了“懶”的標籤,成為外賣等上門服務的核心消費。當然也可折射了95後對於效率的追求,對傳統行為方式的不滿足,如果只盯著“懶”的一面,註定會誤解新一代消費者,很可能和潛在的商業前景失之交臂。
百度輸入法顯然深諳於此,較於傳統、低效的鍵盤,Z世代對語音輸入有著更強烈的訴求,也是語音輸入撬動鍵盤輸入的重要支點。拍立活、凌空手寫等近一步印證了百度輸入法打入年輕人群內部的野心,想要和年輕使用者溝通對話,勢必要選擇年輕人樂意接受的方式,解決了產品“盲點”的語音輸入本就是如此,百度輸入法又加上了更多有趣的籌碼,打出一套面向年輕使用者的組合拳。
在巴克萊銀行給出的資料中,預計到2020年Z世代將成為全球最大的消費群體,或將佔據美國、歐洲和金磚四國消費市場的40%份額。隱約可以看到,百度輸入法之所以推崇全語音輸入,並向Z世代丟擲橄欖枝,絕非是無意之舉。
尾記