矽谷巨頭為何紛紛押注語音技術?
亞馬遜在短短的四年之前還只是一個線上零售商,和公司線上網路託管的主要供應商,它還銷售自己的電子消費產品系列,其中包括Kindle電子閱讀器,這在當時是一個大膽的嘗試。
如今,由於無處不在的亞馬遜 Echo智慧音箱及其Alexa語音識別引擎,亞馬遜激發了自喬布斯推出蘋果手機以來個人計算機和通訊領域的最大轉變。
起初這一切似乎都是很新奇的。亞馬遜在2014年11月首次推出了Echo智慧音箱,一種使用人工智慧接收人類詢問的高科技精靈,它可以在網際網路資料庫中掃描數百萬字,並提供各種各樣的答案。
目前,亞馬遜在總共賣出約4700萬套Echo裝置後,Echo同時服務著80個國家的消費者,平均每天處理1.3億個問題。Alexa是以古埃及圖書館Alexandria命名的,它可以接受音樂請求,提供天氣預報和體育比分資訊,並遠端調節使用者的恆溫器等。它還可以講笑話:回答瑣碎問題,甚至是一些幼稚的小伎倆。
語音識別技術並不是亞馬遜發明的,這種技術已經存在了幾十年。亞馬遜也不是第一個提供主流語音應用的科技巨頭。早在Alexa之前,蘋果公司的Siri智慧語音助手和Google Assistant谷歌語音助手早已經出現。
在亞馬遜推出Alexa的同時,微軟也推出了Cortana(微軟小娜)人工智慧助理。但隨著Echo智慧音箱的廣泛成功,亞馬遜潛移默化地引發了一場“智慧”家用裝置市場的激烈競爭,這場競爭可以使語音識別產品像個人電腦或智慧手機對人類一樣發揮非常重要的作用。
就像谷歌的搜尋演算法徹底改變了資訊消費,並顛覆了廣告業一樣,人工智慧驅動的語音計算使得類似轉變成為可能。亞馬遜Alexa首席科學家Rohit Prasad說,“我們希望消除與客戶的摩擦,最自然的方式就是通過聲音。它不僅僅是一個能提供一堆結果的搜尋引擎,它還會告訴你答案。”
亞馬遜 Alexa 首席科學家兼副總裁 Rohit Prasad
人工智慧與全新語音驅動的使用者體驗的強大組合,使得這場戰爭已不僅僅是聖誕節期間搶佔最熱門玩具的競爭。谷歌,蘋果,Facebook,微軟,以及其他公司都在向競爭產品注入資金。
事實上,投資公司Loup Ventures的Gene Munster估計,科技巨頭們將會花費年度研發預算的10%用於語音識別,總計超過50億美元。他稱語音技術的出現是計算機運作的“巨大變化”,並預測語音命令正迅速成為“我們與網際網路互動的最常見方式,而不是通過鍵盤或手機螢幕。”
賭注如此之高,競爭激烈也不足為奇。 根據研究公司Canalys的資料顯示,亞馬遜最早進入市場並處於領先,在全球連線音箱市場佔據42%的份額。
谷歌也毫不遜色,與Echo外觀相似、由谷歌智慧助理提供支援的家庭裝置系列佔有34%的份額,並且谷歌最近也反超亞馬遜。蘋果HomePod智慧音箱因為價格昂貴和最後進入市場而位於第三。
Facebook在10月份也推出了Portal音訊和視訊裝置系列,可以完成主要競爭對手的部分語音識別任務,尤其是Alexa。
目前連線音箱和類似裝置的市場規模龐大並且不斷增長 - 但對於技術巨頭來說,這不一定是最戲劇性增長的機遇。研究公司全球市場洞察(Global Market Insights)將2017年全球智慧音箱銷售額定為45億美元,預計到2024年這一數字將增長至300億美元。
然而硬體收入並沒有計算在內。例如,亞馬遜對Echo智慧音箱的定價標準是盈虧平衡甚至更低的價格。去年假日期間亞馬遜推出的簡易版智慧音箱Echo Dot售價為29美元,ABI Research認為這個價格比裝置部件的成本還要低。
相反,每個主要參與者都採取了一種策略,即在某種程度上將客戶鎖定到其他商品和服務上的更大目標。
例如,亞馬遜使用Echo系列來增加其Prime會員訂閱服務的價值。谷歌希望語音搜尋能夠豐富已經相當龐大的資料庫,最終為其廣告業務提供支援。蘋果通過Siri,將手機、電腦、電視控制器聯絡在一起,甚至將汽車製造商和車載系統軟體捆綁在一起。
正如所有投資和快速發展的革新一樣,現在預測誰將獲勝還為時過早。但可以肯定地說,該行業已經圍繞這樣一種觀念進行了合作,即依賴於人工智慧的語音技術將會是未來的使用者介面。
它必將是一個會對普通人生活產生深遠影響的技術。負責監管谷歌智慧助理產品設計的副總裁Nick Fox說,“通過語音可以做各種各樣的事情,識字能力較差的人能操作該系統。
正在駕駛的人也能操作該系統。人們在烹飪時通過該系統可以找到菜譜。每隔一段時間,技術就會發生一次構造性的轉變,我們認為語音技術就是轉變之一。”
儘管如此,語音識別仍處於起步階段。與研究人員的期望相比,語音技術的應用還處在滿足基本需求的階段,並且有很大的上升空間。
關於科技公司竊聽客戶資訊以及如何合法使用收集的使用者資料等問題,擔憂依然存在。“用人工智慧識別語音,我們已經從雙翼飛機時代進入噴氣式飛機時代,”華盛頓大學電氣工程教授、語言技術世界頂尖科學家之一的Mari Ostendorf指出,計算機已經善於回答直截了當的問題,但在實際對話方面仍有欠缺。
“人工智慧技術在語音識別單詞和理解命令方面,就數量而言已經令人印象深刻。但我們還沒有進入火箭時代。”
數十年來,語音識別已成為下一個殺手級應用。在20世紀50年代,貝爾實驗室建立了一個名為Audrey的人工智慧系統,可以語音識別從1到9的數字。
在20世紀90年代,PC使用者安裝的Dragon NaturallySpeaking語音識別軟體,已經可以處理簡單的語音識別,不需要說話者在每個單詞後停頓。但直到2010年蘋果公司在蘋果手機上釋出了Siri,消費者才意識到與大規模計算能力相關的語音識別引擎能夠實現什麼。大約在同一時間,亞馬遜,在執行長Jeff Bezos一個真正的星際迷航狂熱愛好者的領導下 - 開始夢想複製星艦進取號上的可以與人對話的電腦。
曾發表過100多篇人工智慧對話文章、亞馬遜現任職員工Prasad說道“我們設想的未來是,你可以通過語音與任何服務進行互動,” Alexa實現了這一點,使消費者與亞馬遜溝通變得更為簡便。
語音識別技術的進步,伴隨著計算能力的進步,即計算能力更快,更便宜,更普遍,因此更主流 - 亞馬遜,谷歌,蘋果和其他公司可以更輕鬆地構建一個無縫網路,通過語音將智慧家居裝置與其他系統連線起來。
例如,蘋果CarPlay車載使用者可以通過Siri將最新一集“權力的遊戲”在蘋果電視上作為“下一個”播放,並且命令HomePod智慧音箱在使用者到家後播放。
兩年前,谷歌釋出了支援語音的Home智慧家居裝置,它將音樂產品,YouTube與最新的Pixel手機和平板電腦聯絡在一起。換句話說,每個科技巨頭都將語音技術視為它們創造更多數字產品的敲門磚。
科技巨頭各自獲利頗豐,因此能夠為研究和營銷提供充足的資金,從而實現更多新產品。例如,蘋果和谷歌分別擁有兩大主流移動作業系統iOS和安卓。這意味著Siri和谷歌智慧助理幾乎可以預裝在所有的新手機上。相比之下,亞馬遜則需要消費者將Alexa應用程式安裝在手機上,然後才能在他們的蘋果或安卓裝置上開啟。
前華爾街計算機公司分析師、現任Loup公司的Munster說 ,“這個額外的步驟使得亞馬遜處於明顯的劣勢。”相比之下,啟用Siri和谷歌智慧助理只需說出它們的名字。”
也就是說,iOS和安卓對所有第三方開發者開放,而亞馬遜就是第三方開發者其中之一 – 這也意味著所有開發人員都可以在這兩個平臺上編寫Alexa程式。 Bezos在今年早些時候釋出的一份財報中表示,“超過150個國家/地區的數萬名開發人員”正在構建Alexa應用並將其整合到非亞馬遜的裝置中。實際上,合作是語音應用的關鍵。
谷歌搜尋和GoogleAssistant副總裁NickFox
亞馬遜將Alexa內置於搜諾思(Sonos)的“迴音壁”、捷波朗(Jabra)的耳機以及寶馬,福特和豐田汽車中。谷歌加強與音訊裝置製造商索尼和Bang&Olufsen的合作,並且聯合智慧系統August智慧鎖和飛利浦LED照明系統進行合作。
Apple允許其HomePod智慧音箱與First Alert安全系統,以及霍尼韋爾(Honeywell)智慧恆溫器配合使用。谷歌的Fox說,“這些合作的好處在於,我們可以將語音連線到整個智慧家電的生態系統中。我無需開啟手機找到應用程式,直接對裝置說,'告訴我誰在我的門前',攝像頭的影像就會彈出來。因為統一,所以簡單。”
長期以來,人工智慧一直是反烏托邦流行文化的主要內容,尤其以“終結者”和“黑客帝國”為代表的電影,其中邪惡且聰明的機器人的崛起對人類構成威脅。值得慶幸的是,這還不是我們的現實。但隨著人工智慧的進步和計算成本的降低,這樣令人印象深刻並且未來感十足的應用已經成為現實。
語音識別程式通過網際網路可以連線到資料中心,這些複雜的數學模型是經過公司花費數年時間編制並通過識別不同語音模式而篩選出的大量資料。語音識別程式可以通過分析呼叫中心人員與客戶交談的記錄或通過與數字助理的互動,來識別詞彙、區域口音、口語和語境。
語音識別系統同樣依賴於物理學和電腦科學。語音在空中產生振動,語音引擎將其視為模擬聲波,然後轉換為數字格式。然後,計算機可以分析該數字資料的含義。人工智慧首先通過檢測客戶選擇的“喚醒詞”(例如“Alexa”)來確定聲音是否指向其系統來增強流程。
然後,他們從之前數百萬其他客戶那裡所積累的模型對接收到的問題做出高度準確的猜測。“語音識別系統首先是識別聲音,然後通過上下文進行解讀,”谷歌智慧助理專案副總裁Johan Schalkwyk解釋道。
“比如我說,'在......天氣怎麼樣,',人工智慧就會知道下一個詞會是國家或城市。我們的資料庫中有500萬個英語單詞,在沒有上下文的情況下識別500萬單詞中的一個單詞是非常困難的。但如果人工智慧知道你是在問一個城市,然後就變成在3萬個英語單詞中檢索的任務,這樣準確率更高。”
計算能力使系統有多種學習機會。為了讓Alexa開啟微波爐 – 這是一個真實的例子 - 語音引擎首先需要了解命令,這意味著它要有學習破解各種各樣的口音的能力,比如濃重的南方口音,兒童的高音,非母語人士的發音等等,還要能同時過濾背景噪音,比如在收音機上播放的歌詞。
然後,語音引擎還必須瞭解人們可能要求使用微波爐的各種方式:“加熱我的食物”,“開啟我的微波爐”,“將食物加熱兩分鐘。”Alexa和其他語音助手將類似命令在資料庫中進行匹配,從而“學習”“加熱我的食物”是特定使用者將來可能會詢問的方式。
語音發展史
語音識別技術能夠迅速發展的部分原因是因為它已經非常精通如何將人類命令轉化為行動。谷歌的Schalkwyk表示,他們公司的語音引擎現在的響應率已達到了95%,幾乎與人類聽力準確度相同,而在2013年此響應率只有80%。
最近在該領域取得的最大成就之一,就是過濾掉背景噪音,這對最敏銳的人耳來說也是難題。然而,只有回答像例如“碟中諜什麼時候上映?”這種簡單問題時,系統才能達到這個水平。而如果向谷歌智慧助理或Alexa詢問意見或嘗試進行對話的時候,裝置很有可能會給出一個預先編寫的滑稽答案或簡單地說:“嗯,我不知道答案。”
對於消費者而言,語音驅動裝置是非常有用的。它們在與資料中心的計算機連線之後,體積雖小但卻是極其高效的資料收集器。
據消費者情報研究合作伙伴稱,大約60%的亞馬遜Echo和谷歌Home使用者至少有一個家用裝置,如恆溫器、安全系統或裝置。語音家用裝置可以記錄使用者日常生活的各個方面。無論是通過其他裝置,訂閱服務還是代表其他商家做廣告,亞馬遜,谷歌和蘋果積累的資料越多,從而可以更好地為消費者提供服務。
商業機會其實很簡單 。將Echo智慧音箱連線到恆溫器的消費者,可能會接受購買智慧照明系統的建議。 儘管這可能會讓隱私權倡導者聽起來令人毛骨悚然,但科技巨頭們正站在個人資料的寶庫之上,更好地向消費者推銷產品。
與他們的總體戰略一樣,科技巨頭採取不同的方式進行資料收集。亞馬遜表示,使用Alexa收集的資料,可以使軟體更智慧,從而對客戶更有用。
Alexa做得越好,客戶就越能看到其產品和服務的價值,包括Prime會員計劃。雖然亞馬遜正在大力推廣廣告 - 研究公司eMarketer預計該公司將在2018年從數字廣告中獲得46.1億美元 – 一位發言人稱亞馬遜目前尚未使用Alexa資料來銷售廣告。谷歌公司,考慮到其巨大的廣告業務,也沒有將語音定位為廣告機會。蘋果公司之前大肆宣揚的不願意利用客戶資料來獲取商業利益,以HomePods的問世而終結。
儘管亞馬遜早期賣點之一是銷售產品,人們並不會要求他們的裝置實現輔助購物功能。亞馬遜不會公佈有多少Echo使用者使用該裝置購物,但最近由Codex Group諮詢公司對購買書籍使用者的調查表明,輔助購物功能仍處於早期階段。
資料顯示只有8%的人使用Echo購買書籍,而13%的人用它來聽有聲讀物。 “人們是習慣性的動物,”研究公司Canalys的技術分析師Vincent Thielke說,當你想買一個咖啡杯時,很難對智慧音箱描述清楚你的想法。”
亞馬遜表示確實沒有過度關注將Echo作為輔助購物工具,特別是考慮到如何將該裝置與其通過Prime訂閱提供的其他服務聯絡起來。
儘管如此,亞馬遜仍然希望日益優化的計算機技術能夠提升其零售業務。亞馬遜的自然語言處理科學家Prasad說,“如果你想購買雙A電池,你不需要看到它們,你也不需要記住引數。參考購物歷史即可。如果您以前從未購買過電池,我們當然也會推薦亞馬遜品牌的電池。”
促進購物遠不止替代電池的銷售,特別是許多商家希望與科技巨頭合作並利用其相關的平臺。研究公司OC&C Strategy Consultants預測,到2022年,Echo,Google Home及其同類產品的語音購物銷售額將從目前的20億美元增加到400億美元。音箱的重要演變有助於解釋這一現象。
亞馬遜和谷歌現在都提供帶螢幕的智慧家居裝置,更像是小型電腦和電視機的結合,因此更適合線上購物。亞馬遜在2017年春季推出了售價230美元的Echo Show觸控式螢幕智慧音箱。
與其他Echo裝置一樣,Echo Show也預裝了Alexa,但同時使用者能夠看到影象。這意味著購物者可以看到他們訂購的產品以及他們的購物清單、電視節目、音樂歌詞、安全攝像頭的影象,甚至度假的照片,所有這些都無需按任何按鈕或操作電腦滑鼠。
就零部件而言,谷歌已經在與四家消費電子製造商合作,其中一些製造商最近開始銷售谷歌智慧助理的整合智慧螢幕。另外,聯想智慧顯示器與的Facebook Portal外觀類似。
而Facebook Portal的零售價為250美元,與JBL Link View智慧顯示器的價格相同。LG計劃推出ThinQ View觸控式螢幕智慧冰箱。谷歌在今年10月以149美元的價格開始銷售配備7英寸螢幕的Home Hub智慧家居控制。
從長遠來看,谷歌認為增加螢幕可以讓語音購物變得更容易。與亞馬遜直接銷售產品不同的是,谷歌的購物網站將零售商與谷歌搜尋引擎連線在一起。它已經將Google Home智慧家居裝置作為購物工具。
例如,谷歌與星巴克合作,使用者只需告訴谷歌智慧助理訂購“我經常訂購的飲品”,訂單在使用者到達時就已經準備好了。
去年,谷歌鞏固了與全球最大零售商沃爾瑪的合作伙伴關係。購物者只需將他們現有的沃爾瑪線上帳戶連線到谷歌的購物網站,即可在Google Home智慧家居裝置瀏覽喜歡的跑鞋是否有貨,預定當天提貨的平板電視,或者找到最近的沃爾瑪商店。
視覺識別技術的加入會使在這些裝置上的購物體驗更加便捷。視覺識別技術目前已經長期用於在人群中匹配罪犯面孔。今年9月,亞馬遜宣佈正在與Snapchat一起測試應用程式,該應用程式可讓購物者用Snapchat的相機拍攝產品或條形碼,然後在螢幕上看到亞馬遜網上商店的產品頁面。
不難想象,下一步的購物體驗將會是使用嵌入在Echo Show的相機拍攝使用者想要購買產品的照片,然後在螢幕上就可以看到相同或類似的產品資訊,價格,評價,是否可以使用Prime兩天免費送貨。
語音技術雖然令人振奮,但這種技術可能會讓非技術愛好者花一點時間習慣如何才能與機器對話。科技巨頭目前還不是最受信賴的公司,他們需要說服消費者裝置不會被惡意竊聽。智慧音箱只有在檢測到“喚醒詞”時才會進入聆聽模式,例如“Alexa”或“Hey, Google”。今年5月,亞馬遜將波特蘭一位高管與妻子關於硬木地板的對話錯誤地發給了他的員工。亞馬遜為此公開道歉,稱裝置“誤解”了這次談話。
語音輸入產生的錯誤可能遠遠超過打字輸入產生的錯誤 這可能還會對商業經濟造成影響。
去年,達拉斯的一位6歲女孩在和Alexa談論餅乾和娃娃屋的幾天之後,她家收到了4磅餅乾和170美元的娃娃屋。亞馬遜表示,Alexa的家長控制功能如果使用得當的話,可以防止類似事件發的生。
語音技術隨著社會的發展會越來越普及。目前已經有超過1億臺語音裝置成功安裝並處於聆聽模式,語音成為人與機器進行交流的主導方式只是時間問題 - 即使談話只是一些雜亂的聲音而已。
本文來源:鈦媒體 責任編輯:張梅_NF2100