1. 程式人生 > >百度騰訊阿里,其大資料優劣勢與策略分析

百度騰訊阿里,其大資料優劣勢與策略分析

 阿里巴巴CTO即阿里雲負責人王堅博士說過一句話:雲端計算和大資料,你們都理解錯了。
實際上,對於大資料究竟是什麼業界並無共識。大資料並不是什麼新鮮事物。資訊革命帶來的除了資訊的更高效地生產、流通和消費外,還帶來資料的爆炸式增長。“引爆點”到來之後,人們發現原有的零散的對資料的利用造成了巨大的浪費。移動網際網路浪潮下,資料產生速度前所未有地加快。人類達成共識開始系統性地對資料進行挖掘。這是大資料的初心。資料積累的同時,資料探勘需要的計算理論、實時的資料收集和流通通道、資料探勘過程需要使用的軟硬體環境都在成熟。
概念、模式、理論很重要,但在最具實幹精神的網際網路領域,行動才是最好的答案。
國內網際網路三巨頭BAT坐擁資料金礦,已陸續踏上了大資料掘金之路。
BAT都是大礦主,但礦山性質不同

資料如同蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大資料並不在“大”,而在於“有用”。價值含量、挖掘成本比數量更為重要。
百度擁有兩種型別的大資料:使用者搜尋表徵的需求資料;爬蟲和阿拉丁獲取的公共web資料。
阿里巴巴擁有交易資料和信用資料。這兩種資料更容易變現,挖掘出商業價值。除此之外阿里巴巴還通過投資等方式掌握了部分社交資料、移動資料。如微博和高德。
騰訊擁有使用者關係資料和基於此產生的社交資料。這些資料可以分析人們的生活和行為,從裡面挖掘出政治、社會、文化、商業、健康等領域的資訊,甚至預測未來。

下面,就將三家公司的情況一一掃描與分析。

一、百度:含著資料出生且擁有挖掘技術,研究和實用結合

搜尋巨頭百度圍繞資料而生。它對網頁資料的爬取、網頁內容的組織和解析,通過語義分析對搜尋需求的精準理解進而從海量資料中找準結果,以及精準的搜尋引擎關鍵字廣告,實質上就是一個數據的獲取、組織、分析和挖掘的過程。
除了網頁外,百度還通過阿拉丁計劃吸收第三方資料,通過業務手段與藥監局等部門合作拿到封閉的資料。但是,儘管百度擁有核心技術和資料礦山,卻還沒有發揮出最大潛力。百度指數、百度統計等產品算是對資料探勘的一些初級應用,與Google相比,百度在社交資料、實時資料的收集和由資料流通到資料探勘轉換上有很大潛力,還有很多事情要做。
2月底在北京出差時,寫了一篇《搜尋引擎的大資料時代》發在虎嗅。創造了零回覆的記錄。儘管如此,仍然沒有打消我對搜尋引擎在大資料時代深層次變革的思考。
搜尋引擎在大資料時代面臨的挑戰有:更多的暗網資料;更多的WEB化但是沒有結構化的資料;更多的WEB化、結構化但是封閉的資料。

這幾個挑戰使得資料正在遠離傳統搜尋引擎。不過,搜尋引擎在大資料上畢竟具備技術沉澱以及優勢。
接下來,百度會向企業提供更多的資料和資料服務。前期百度與寶潔、平安等公司合作,為其提供消費者行為分析和挖掘服務,通過資料結論指導企業推出產品,是一種典型的基於大資料的C2B模式。與此類似的還有Netflix的《紙牌屋》美劇,該劇的男主角凱文·史派西和導演大衛·芬奇都是通過對網路資料探勘之後,根據受歡迎情況選中的。
百度還會利用大資料完成移動網際網路進化。核心攻關技術便是深度學習。基於大資料的機器學習將改善多媒體搜尋效果和智慧搜尋,如語音搜尋、視覺搜尋和自然語言搜尋。這將催生移動網際網路的革命性產品的出現。
儘管百度已經出發,其在大資料上可做的事情還有很多。
在資料收集方面,百度需要聚合更多高價值的交易、社交和實時資料。例如加強自己貼吧知道的社交能力、儘快讓地圖服務與O2O結合進而掌握交易資料,以及推進移動App、穿戴式裝置等資料收集系統。
在資料處理技術上,百度成立深度學習研究院加強自己在人工智慧領域的探索,在多媒體和中文自然語言處理領域已經有一些進展;雲端儲存、雲端計算的基礎設施建設也在逐步完善。但深度學習仍然是一個巨大的挑戰,百度等探索者還有很多待解問題,如:無監督式學習、立體影象識別。
在資料變現方面,百度需將資料探勘能力、資料內容聚合和提取等形成標準化的服務和產品,進而開拓大資料領域的企業和開發者市場。而不僅僅是頗為個性化、定製化地為大型企業提供解決。
百度的優勢體現在海量的資料、沉澱十多年的使用者行為資料、自然語言處理能力和深度學習領域的前沿研究。在技術人才方面百度是聚集國內最多大資料相關領域頂尖人才的公司。聽說百度前段時間花五千萬挖了資料探勘、自然語言處理、深度學習領域的十來位大牛,包括一些學者和教授。例如Facebook科學家徐偉。
在挖人上,捨得花錢不夠,還得用心。對於真正的大牛來說,錢只是一個影響因素。能否實現自己的夢想,公司的資源能否幫助自己的研究至關重要。徐偉在回國前就曾問過其他從矽谷回國工程師的意見,得到答案是積極的,最終促成他作出決定。
總體來看,百度擁有大資料也具備大資料探勘的能力,並且正在進行積極地準備和探索。在加強面向未來的研究和人才佈局的同時,也注重實用性的技術產出。

二、騰訊:資料為產品所用,自產自銷
微創新提出者金錯刀有個關於騰訊的故事。
1999年騰訊公司剛剛成立不久,天使投資人劉曉鬆決定向其注資的一個主要原因就是因為他發現,“當時雖然他們的公司還很小,但已經有使用者運營的理念,後臺對於使用者的每一個動作都有記錄和分析。”而另一個投資人卻因為馬化騰在公司很小時就花錢在資料上表示不滿。此後騰訊的產品生產及運營、騰訊遊戲的崛起都離不開對資料的重視。
騰訊擁有社交大資料,在企鵝帝國完成資料的製造、流通、消費和挖掘。
騰訊大資料目前釋放價值更多是改進產品。據騰訊Q1財報,增值服務佔總收入的78.7%;電子商務業務佔14.1%;網路廣告收入佔6.3%。從廣告收入比例可以看出騰訊的大資料在精準營銷領域暫時還未大量釋放出價值。與其產品線對應的GMAIL、Google+的Google以及社交巨頭Facebook則通過廣告賺得盆滿鉢滿。
在筆者看來,騰訊的思路主要是補齊產品,注重QZONE、微信、電商等產品的後端資料打通。例如最近騰訊微博利用“大資料技術”實現好友關係自動分組、低質量資訊自動過濾、優質資訊分類閱讀等智慧化功能。明顯的用資料改進產品的思路。
那麼如果騰訊要深入大資料探勘缺少什麼呢?筆者認為其只需馬化騰“摁下啟動按鈕”。資料已經準備好了,就差模式,也就是找到需求或者能更深層次驅動大資料利用的產品,而不是用大資料改進自己的產品。騰訊還在觀望,等其他人去試錯驗證出一套模式或者產品後,自己可以“站在巨人肩上”。這是騰訊的典型思維。
在人才方面,騰訊很早便開始重金挖人。尤其是2010年在Google宣佈退出中國後,Google圖片搜尋創始人朱會燦、Google中國工程研究院副院長顏偉鵬、Google中日韓文搜尋演算法的主要設計者,《浪潮之巔》及《數學之美》作者吳軍相繼加入騰訊。搜搜花了很多錢,但被認定為一款無法承載騰訊重託的產品,最後這些大牛都走了。大都回Google了。
騰訊在大資料領域也缺少技術帶頭人。其對公關也不重視。技術大牛很少出來做報告,更不會向百度、阿里那樣主動包裝宣傳技術大牛。其技術雖然低調,但執行力很強。據騰訊的程式設計師朋友說封閉開發、集體加班是常有的事情。但配套的重金激勵也能跟上。重金之下必有勇夫、騰訊用制度保障技術產出。另外騰訊在高校合作領先一步,在2010年便與清華大學合作成立了清華騰訊聯合實驗室。
這麼看騰訊的技術人才這塊似乎有短板。會不會到時候馬化騰按下啟動按鈕,發現沒資料探勘能力呢?不會,騰訊搞不定資料探勘,到時候依然可以挖到大牛,甚至讀論文來搞定這事兒。資料探勘已較為成熟。資料探勘實際是資料庫、統計學、機器學習三個領域的融合。在學術界已經發展多年。不過自然語言識別和深度學習等方面要趕上百度,就難了。除非將百度的資料和眾大牛一起倒騰過來。
總體來看,騰訊目前的大資料策略是先將產品補全,產品後臺資料打通,形成穩定生態圈。本階段先利用大資料探勘改進自己的產品。後期有成熟的模式合適的產品,則利用自家的社交及關係資料時,開展對大資料的進一步挖掘。


三、阿里巴巴:坐擁金資料,嘗試做面向未來的資料集市
阿里巴巴B2B出身,在外貿蓬勃的大環境下,依靠服務中小企業發家。淘寶、支付寶等toC的產品出生前,阿里並不依賴也不擅長技術。業界普遍認為阿里沒有技術基因。直到淘寶、支付寶以及天貓三個產品後,對海量使用者大併發量交易、海量貨架資料的管理、安全性等方面的嚴苛要求,阿里完成進化,在電商技術上取得不菲的成績。在一段時期阿里仍然浪費了手裡掌握的大量資料。這些資料還是“最值錢”的金資料。
資料探勘無非是從原始資料提取價值。阿里現有的資料產品例如資料魔方、量詞統計、推薦系統、排行榜以及時光倒流相對來說是比較簡單的BI(商業智慧),沒到大資料的階段。
“大資料”浪潮襲來,阿里提出“資料、金融和平臺”戰略。前所未有地重視起對資料的收集、挖掘和共享。馬雲在“退居”前動不動都對外提“資料”。有位阿里朋友甚至開玩笑說,馬雲英文名可以從Jack Ma改為Data Ma。阿里現CEO陸兆禧曾做過CDO,首席資料官。為了用資料來驅動阿里電商帝國,阿里還成立了橫跨各大事業部的“資料委員會”。
阿里的各項投資案也顯示其整合、利用和完善資料的野心:新浪微博的社交及媒體資料、高德的地圖資料和線下資料以及友盟的移動應用資料,都是其資料及平臺戰略的一部分。資料戰略正在首席人工智慧官(CBO)車品覺領頭下逐步落地,王堅的云為其提供基礎設施、基礎技術支撐。
就在馬雲退休之後,王堅對外透露其跟馬雲開玩笑說的一句話:阿里巴巴對資料的理解深度,不會超過蘇寧對電子商務的理解。估計馬雲不一定認同他這話。馬雲對大資料已經有著自己的理解和考量。
馬雲曾經說過其對大資料的思考。大致意思是:現在從資訊時代進入資料時代了。區別是資訊時代更多的是精英玩的遊戲。我比別人聰明,我能提取出資訊出來;資料時代,別人比我聰明,將資料開放給更聰明的人處理,資料即資產,分析即服務。
計算機發展的過程是從象牙塔、到平民到草根。大資料也是這樣,一開始在象牙塔階段,少數精英公司才能玩;但到後面只要有資料就有價值。資料也有所有權,產生資料、流通資料、挖掘資料的都會獲得相應的價值。而阿里擅長的便是“建立市場”,建立一個數據交易市場。屆時任何個人和企業都可以將資料和挖掘服務拿上去,交易。初期阿里會將自己珍藏的電商和信用資料逐步放到上面。
有資料的人,拿上去賣,或者讓別人分析,分析即服務。沒有資料的人,即可以去買,也可以去幫別人挖掘,做礦工。
阿里並不是技術驅動,而是業務驅動的。因此在技術層面我們看到,基於前面提到的阿里大資料思路,其技術重心主要在系統層面。阿里擁有LVS(Linux Virtual Server,Linux虛擬伺服器)開源軟體創始人章文嵩,Linux Kernal、檔案系統、大牛DBA等領域的大牛。從人才佈局可以看到阿里擅長的技術領域,體現在對於併發訪問、電信級別的電商業務的支撐方面的得心應手。在去年雙十一期間,支撐了單日過億的訂單量。鐵道部奇葩網12306在日均40萬時已經不行了。
總體來看,阿里更多是在搭建資料的流通、收集和分享的底層架構。自己並不擅長似乎也不會著重來做資料探勘的活兒。而是將自己擅長的“交易”生意擴充套件到資料。讓天下沒有難做的“資料生意”。
總結一下
移動網際網路浪潮下,現實世界正在加速數字化,每個人,每個物體、每件事情、每一個時間節點,都在向網上對映。空間和時間兩個維度的聯網,使得數字世界正在接近一步步模擬現實世界。歷史、現在和未來都會對映到網上。對大資料的挖掘正是對世界的二次發現和感知。BAT三巨頭已經出發。