百箱大戰的尾聲,孕育著新的希望
編者按:本文作者致謙,BAT人工智慧行業從業者 ,36氪經授權轉載。原題目《百箱大戰的尾聲,孕育著新的希望 | 通往人工智慧使用者產品之路(1)》
說起人工智慧,人們腦海中馬上就會浮現出有著獨立人設的AI形象,包括了《鋼鐵俠》裡的賈維斯,《超能陸戰隊》裡的大白,甚至機器貓哆啦A夢。而這樣的自然而然的聯想卻是人工智慧行業區別於其他行業的一大特徵,也是大眾對這行業最大的誤解。
這個世界對人工智慧的預期太高了。人們能很簡單的想象出一個理想中機器夥伴的形象,但是忽略了“人”其實是花了幾百萬年進化而來的超級生物。這幾百萬年的差距並不是數載深度學習就能補上的。從目前的現狀看來,人工智慧依然還是鏡花水月般的存在。
需要指出,以上所提到的“人工智慧”是狹義的人工智慧 ,換成“智慧助理”或者“擬人化機器人”來定義應該更為合適。廣義來講,人工智慧包含了機器學習、自動化技術在各行各業的應用,而且和鏡花水月的“智慧助理”相反,廣義上的工智慧已經在深刻地改造著當今社會,在工業、交通、醫療等多個領域都有可喜的進展。
但本文想和大家聊聊的正是“狹義人工智慧”。因為廣義人工智慧改造行業的邏輯一般都很清晰,要麼就是解放重複勞動(比如客服機器人,比如自動化生產),要麼就是特定環境下追求超越人的識別、判斷、或行動力(比如醫療影像識別,比如AlphaGO,比如自動駕駛等)。
這樣的邏輯不太需要過多的贅述,繁榮發展更多靠的是資料的積累和有明確方向的技術突破。但通往狹義人工智慧的邏輯就很隱晦了,朝這方面努力的人更像是追夢者,在強人工智慧技術還未面世的情況下,大家爭相嘗試,有得有失。聊聊這個過程,有更多思辨的樂趣。
接下來文章會分為三篇來闡述“狹義人工智慧”的發展,分別是“智慧音響篇”、“手機助理篇”和“其他產品篇”。
【智慧音響篇】
—— 百箱大戰的尾聲,是一聲嘆息後的重新思考
過去的兩年,大家都在期待著人工智慧C端產品中能出現爆款,其中抱有最大希望的便是智慧音響,在這個領域裡,資本和巨頭紛紛進場,國內一度上演了“百箱大戰”的大戲。但時至今日,大戰的市場聲量已經極低,漸漸進入了尾聲。
如果說top玩家在大戰中的目的是為了掃清第十名到第一百名的參賽對手,那似乎是做到了,現在中小的智慧硬體廠商,要麼就守著自己固有的渠道自給自足,要麼就不會再碰音響這個品類了。
但如果說“百箱大戰”的目的是讓大眾使用者都能認知智慧音響,讓它走入家家戶戶,像外賣或者打車軟體一樣形成生活中的習以為常的一部分,那這個目的似乎遠遠沒有達到。
國內智慧音響還不能稱之為一個紮紮實實的“爆款”。對比國外,亞馬遜的Echo在2017年初就有累積1000萬的出貨量,現在已經突破2000萬。而國內百箱大戰之後,依然還沒有人站出來振臂高呼自己有1000萬出貨量。
理論上講,國內消費者體量巨大,而且價格已經極低,銷量和亞馬遜的差距應該迅速縮小才對。但充分競爭之後,並沒有帶來市場指數級的繁榮增長。第一批智慧音響滿足了使用者的好奇心,好奇心過後,可以靠價格,但再之後並沒有看到撬動市場的驅動力。另外,產品留存率和復購率不高(沒有準確資料來源,只是從各個渠道的使用者反饋上推測),戰場裡每個參與者都多少有些疲憊了。
智慧音響是通往智慧助理之路上的重要嘗試,可惜目前還是沒有形成人工智慧的大眾心智。音響確實是智慧助理的載體,因為它能語音互動,能做些設鬧鐘、充話費、問天氣、查百科等助理的事情,但是在使用者心智裡,它更像是一個能語音操控的媒體播放器。
造成這樣心智定位的原因有很多,我僅挑“人機關係 ”的角度說說個人觀點。
人與人的關係加深和情感建立是一個你來我往,相互互動的過程,人和機器之間應該也是同理。但是音響在絕大多數情況下是個單方面互動的產品,互動的過程也只有一個:使用者用喚醒詞叫醒音響後下達指令。沒有頻繁的接觸和交流,音響和使用者的關係難以加深,成不了朋友,使用者只能將它視為一個播放器了。
進一步挖掘,想讓人和機器有“你來我往的互動過程”,至少還需要做到兩個方面:第一個是連續的多輪對話,第二個是機器主動對話。
前者難以實現完全是因為技術瓶頸,現在的對話技術主流還是檢索式對話,能在對話中做到指代消歧(讓機器理解對話裡的“他她它”指的是什麼)已經很不錯了,其他例如反問、聯想、發散話題、切換話題等多輪對話的策略,雖然已經有不少人在嘗試開發,但是由於人與人的聊天邏輯複雜到只可意會不可言傳的地步,想要實現的很好還比較困難。
這時候開發者的選擇之一就是減少複雜度,把對話限定在指定的範圍,即在封閉域下的多輪對話,比如訂機票、訂外賣這樣的有明確條理的任務型多輪對話,又比如聊具體興趣愛好這樣能羅列規則的特定話題聊天。無論是國外還是國內的音響,已經有了不少嘗試,至少不是每句對話都要用喚醒詞來開頭了,可惜體驗依然不夠好,過去亞馬遜echo的研發人員就說過“對話超過兩輪就是災難”,如今這個“災難”有所緩解,但還沒有根除。
後者(機器主動找人說話)難以實現主要是場景不自然。如果音響在家裡突然說話,大部分人是受不了的,有時候更可能是嚇一跳。幸好這個問題比技術問題好解決,解決的思路就是:沒有場景就創造場景。
現在業界已經有的嘗試包括:
-
讓使用者主動設定的提醒成為對話開始的契機,比如用音響設鬧鐘,鬧鐘響了後,音響再多嘮叨幾句。
-
使用者說些沒有明確指令的對話(比如“早晨好”“晚上好”)後,讓機器主動多說些內容。
除此以外還有不少可以嘗試的方向:
-
讓音響主動給訊號,比如閃燈,或者有屏音響上的提示,代表音響想說話了。此時使用者也不用講喚醒詞了,就說“你幹嘛”“啥事兒”,對話就能開始。
-
讓使用者空間的變化成為開始對話的契機,比如當用戶剛踏進家門,或者剛踏進臥室的時候,音響可以主動說話“歡迎回家,等你很久啦,迫不及待想告訴你……”
-
抓住目光交匯的瞬間。如果音響有攝像頭的話,發現使用者在看它,螢幕就能亮起,或者主動說“你找我嗎?” 畢竟人和人之間的大部分的打招呼和聊天也不是開始於喚醒詞的,而是開始於“目光交匯的瞬間”。
小結一下,音響還沒有形成人工智慧的心智是因為和使用者之間的交集還不夠多(只是單純從“人機關係”這一個角度看,其他還有很多角度,暫不贅述)。增加交集的方式有上文提到的一些創造場景的辦法,但其實還有一個更重要的問題,就是“創造了交集之後,機器與人聊些什麼?”這個問題其實在問音響能給使用者帶來的核心價值是什麼 。當下這個問題最簡單的回答可能就是:“內容和功能 ”。而這兩個詞似乎也代表了目前智慧音響的兩個發展趨勢。
先說“內容”。智慧音響正在一步步拓展它所能呈現的內容的邊界,從最開始放歌,到童話故事,到有聲書,到電臺,到新聞播報,到課程,到比賽直播,以後有屏音響更多後,視訊資源也會逐步新增。每豐富一個品類,甚至每豐富一條內容,都讓音響多了一次和使用者交流的可能,而每多一次交流,智慧音箱就朝著狹義人工智慧的方向多前進一小步。
只是這條路依然非常艱難,因為一旦涉及到內容,就繞不開版權問題,音響想有豐富的內容,就需要各種內容生產方授權。這樣的情況下,有內容版權的公司自己做智慧音響會更理直氣壯些,而大公司就只能靠財力來突破了。還好在挑戰之下也孕育著機會,畢竟內容付費,知識經濟已經在崛起,售賣內容肯定是將來智慧音響合適的商業化手段。
當商業模式建立後,至少智慧音響這個產品就能生存下去了,能生存就有繼續探尋未來的可能。需要指出的是,豐富的內容是音響能為使用者提供的價值,但如果單純只提供價值,那音響只能算是個商品,而本文所說的“探索人工智慧之路”,其實是在探索人和機器能成為朋友的可能,音響在提供內容之餘,和使用者再多聊聊見解、喜好、觀點,這樣才有成為朋友的希望。
再說“功能”。音響自己能擴充套件的助理功能其實很有限,雖然類似“給我爸充100塊話費”這樣的功能用起來確實很方便,但大多數能在音響上實現的助理功能都不是高頻剛需。這時候大家所期盼的“新大陸”就轉向了“IoT”(物聯網),只是IoT的命題太巨集大,如果聚焦在家庭場景之下會更好實現,畢竟功能可列舉,技術可控,收益也好衡量。“回家”是個高頻動作,“呆在家裡”是個高時長行為,家庭場景真是潛力無限。
剛巧在筆者寫這篇文章的這兩天,小米也宣佈了自己的AIoT戰略,就是:讓AI+IoT成為核心,甚至未來5到10年都不會動搖。這確實是小米的最佳選擇,單純做手機已經是件非常困難的事情,幸好小米產業鏈上已經有了不少品質和口碑不錯的其他單品,當新的單品不斷誕生,同時一個個的單品又能連線在了一起時,量變會進而產生質變,點就演變成了網,誰也無法預料這樣一個新孕育而出的“網”能具備多大的能量。這裡的問題是量變到質變的轉折點在哪兒?
個人覺得“當用戶突然意識到家裡已經有個不可或缺的小管家的時候”,就是質變已經發生的時候。人永遠是懶的,在家能少走一步,少按個開關,甚至少說一句話都是極好的,而IoT的每一個功能都能讓使用者懶一點點(比如語音控制的燈泡,讓睡前不用再費勁去關燈)。如果突然有一天家裡斷網了,或者停電了,使用者發現自己渾身都感覺很彆扭,原來一個個小小的功能已經在使用者心中積累成了一個“不可或缺”的整體感受,那IoT的未來就真的來了(僅家庭場景)。
但這個過程真的需要很久的時間,這是一個執行層面的難題。無論是家電行業,還是傢俱行業,又或是裝修、房地產行業,每一個都和家庭IoT有著重要的關聯,而這每一個行業都是和網際網路行業一樣的龐然大物。相互之間的格局變遷,利益分配都需要多年時間。
令人欣喜的是,這一切至少已經開始了。家電行業一兩年前已經全面開始了AI化,小米和宜家的合作是個不錯的開頭,證明人工智慧的風潮已經吹向了傢俱行業,相信不久後會有更多傢俱、裝修、房地產行業的公司宣佈自己的AI戰略。
回到音響的話題,音響是探索IoT未來的先驅產品,同時也被部分人視為IoT未來的中心樞紐。 和前文的“內容”方向不同,如果IoT有越來越多的“功能”能通過音響來實現,那麼一個擬人化的“管家”形象就能被建立起來,那“狹義人工智慧”就已經被初步實現了。
這裡想開一個小差,提一個有趣的小問題:一個家庭到底能接受幾個智慧助理? 畢竟IoT市場之大,很難一家通吃,以後肯定有很多各有所長的智慧助理,假設是小A,小B,小C,小D等等。會不會出現一個所有人都認可的協議,讓每個智慧助理都能控制所有家庭裝置呢?
有點難,歷史似乎一向都不是開局就朝著大統一的方向發展,那大概率上,就會出現小A擅長控制冰箱、空調;小B擅長內容播放;小C擅長控制電燈、電視;小D就只管掃地機器人。一個家庭裡同時住著好幾個智慧助理,這樣的未來使用者都能接受嗎?
總結完了智慧音響的兩大發展方向,第一篇“智慧音響篇”到此就基本結束了。雖然智慧音響的發展還沒有達到最理想的境地,但是筆者一直相信所有積極的探索都是有意義的;雖然未來還未到來,但是人們總能在失望後找到新的曙光;雖然曙光也有可能只是幻覺,但是只要還在努力,遮在未來前的幕布終會被掀起一角 。
本文的主題是探索“狹義人工智慧”產品之路,背後的核心假設是未來機器不再單純是工具,而是以擬人化的形象能和人類和諧相處。如果這個假設不成立,那文章大部分的觀點都是無意義的。但這個假設正是筆者的一點執念——人類能和機器做朋友,這個未來會很有意思 。接下來,文章還有兩篇,分別是“手機助理篇”和“其他產品篇”,繼續描述目前看到的業界嘗試,並做一些簡單的分析。