1. 程式人生 > >BAT三巨頭開挖大資料

BAT三巨頭開挖大資料

阿里巴巴CTO即阿里雲負責人王堅博士說過一句話:雲端計算和大資料,你們都理解錯了。 實際上,對於大資料究竟是什麼業界並無共識。大資料並不是什麼新鮮事物。資訊革命帶來的除了資訊的更高效地生產、流通和消費外,還帶來資料的爆炸式增長。“引爆點”到來之後,人們發現原有的零散的對資料的利用造成了巨大的浪費。移動網際網路浪潮下,資料產生速度前所未有地加快。人類達成共識開始系統性地對資料進行挖掘。這是大資料的初心。資料積累的同時,資料探勘需要的計算理論、實時的資料收集和流通通道、資料探勘過程需要使用的軟硬體環境都在成熟。 概念、模式、理論很重要,但在最具實幹精神的網際網路領域,行動才是最好的答案。 國內網際網路三巨頭BAT坐擁資料金礦,已陸續踏上了大資料掘金之路。 BAT都是大礦主,但礦山性質不同
資料如同蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大資料並不在“大”,而在於“有用”。價值含量、挖掘成本比數量更為重要。 百度擁有兩種型別的大資料:使用者搜尋表徵的需求資料;爬蟲和阿拉丁獲取的公共web資料。 阿里巴巴擁有交易資料和信用資料。這兩種資料更容易變現,挖掘出商業價值。除此之外阿里巴巴還通過投資等方式掌握了部分社交資料、移動資料。如微博和高德。 騰訊擁有使用者關係資料和基於此產生的社交資料。這些資料可以分析人們的生活和行為,從裡面挖掘出政治、社會、文化、商業、健康等領域的資訊,甚至預測未來。

下面,就將三家公司的情況一一掃描與分析。 一、百度:含著資料出生且擁有挖掘技術,研究和實用結合
搜尋巨頭百度圍繞資料而生。它對網頁資料的爬取、網頁內容的組織和解析,通過語義分析對搜尋需求的精準理解進而從海量資料中找準結果,以及精準的搜尋引擎關鍵字廣告,實質上就是一個數據的獲取、組織、分析和挖掘的過程。 除了網頁外,百度還通過阿拉丁計劃吸收第三方資料,通過業務手段與藥監局等部門合作拿到封閉的資料。但是,儘管百度擁有核心技術和資料礦山,卻還沒有發揮出最大潛力。百度指數、百度統計等產品算是對資料探勘的一些初級應用,與Google相比,百度在社交資料、實時資料的收集和由資料流通到資料探勘轉換上有很大潛力,還有很多事情要做。 2月底在北京出差時,寫了一篇《搜尋引擎的大資料時代》發在虎嗅。創造了零回覆的記錄。儘管如此,仍然沒有打消我對搜尋引擎在大資料時代深層次變革的思考。 搜尋引擎在大資料時代面臨的挑戰有:更多的暗網資料;更多的WEB化但是沒有結構化的資料;更多的WEB化、結構化但是封閉的資料。
這幾個挑戰使得資料正在遠離傳統搜尋引擎。不過,搜尋引擎在大資料上畢竟具備技術沉澱以及優勢。 接下來,百度會向企業提供更多的資料和資料服務。前期百度與寶潔、平安等公司合作,為其提供消費者行為分析和挖掘服務,通過資料結論指導企業推出產品,是一種典型的基於大資料的C2B模式。與此類似的還有Netflix的《紙牌屋》美劇,該劇的男主角凱文·史派西和導演大衛·芬奇都是通過對網路資料探勘之後,根據受歡迎情況選中的。 百度還會利用大資料完成移動網際網路進化。核心攻關技術便是深度學習。基於大資料的機器學習將改善多媒體搜尋效果和智慧搜尋,如語音搜尋、視覺搜尋和自然語言搜尋。這將催生移動網際網路的革命性產品的出現。 儘管百度已經出發,其在大資料上可做的事情還有很多。 在資料收集方面,百度需要聚合更多高價值的交易、社交和實時資料。例如加強自己貼吧知道的社交能力、儘快讓地圖服務與O2O結合進而掌握交易資料,以及推進移動App、穿戴式裝置等資料收集系統。 在資料處理技術上,百度成立深度學習研究院加強自己在人工智慧領域的探索,在多媒體和中文自然語言處理領域已經有一些進展;雲端儲存、雲端計算的基礎設施建設也在逐步完善。但深度學習仍然是一個巨大的挑戰,百度等探索者還有很多待解問題,如:無監督式學習、立體影象識別。 在資料變現方面,百度需將資料探勘能力、資料內容聚合和提取等形成標準化的服務和產品,進而開拓大資料領域的企業和開發者市場。而不僅僅是頗為個性化、定製化地為大型企業提供解決。 百度的優勢體現在海量的資料、沉澱十多年的使用者行為資料、自然語言處理能力和深度學習領域的前沿研究。在技術人才方面百度是聚集國內最多大資料相關領域頂尖人才的公司。聽說百度前段時間花五千萬挖了資料探勘、自然語言處理、深度學習領域的十來位大牛,包括一些學者和教授。例如Facebook科學家徐偉。 在挖人上,捨得花錢不夠,還得用心。對於真正的大牛來說,錢只是一個影響因素。能否實現自己的夢想,公司的資源能否幫助自己的研究至關重要。徐偉在回國前就曾問過其他從矽谷回國工程師的意見,得到答案是積極的,最終促成他作出決定。 總體來看,百度擁有大資料也具備大資料探勘的能力,並且正在進行積極地準備和探索。在加強面向未來的研究和人才佈局的同時,也注重實用性的技術產出。 二、騰訊:資料為產品所用,自產自銷 微創新提出者金錯刀有個關於騰訊的故事。 1999年騰訊公司剛剛成立不久,天使投資人劉曉鬆決定向其注資的一個主要原因就是因為他發現,“當時雖然他們的公司還很小,但已經有使用者運營的理念,後臺對於使用者的每一個動作都有記錄和分析。”而另一個投資人卻因為馬化騰在公司很小時就花錢在資料上表示不滿。此後騰訊的產品生產及運營、騰訊遊戲的崛起都離不開對資料的重視。 騰訊擁有社交大資料,在企鵝帝國完成資料的製造、流通、消費和挖掘。 騰訊大資料目前釋放價值更多是改進產品。據騰訊Q1財報,增值服務佔總收入的78.7%;電子商務業務佔14.1%;網路廣告收入佔6.3%。從廣告收入比例可以看出騰訊的大資料在精準營銷領域暫時還未大量釋放出價值。與其產品線對應的GMAIL、Google+的Google以及社交巨頭Facebook則通過廣告賺得盆滿鉢滿。 在筆者看來,騰訊的思路主要是補齊產品,注重QZONE、微信、電商等產品的後端資料打通。例如最近騰訊微博利用“大資料技術”實現好友關係自動分組、低質量資訊自動過濾、優質資訊分類閱讀等智慧化功能。明顯的用資料改進產品的思路。 那麼如果騰訊要深入大資料探勘缺少什麼呢?筆者認為其只需馬化騰“摁下啟動按鈕”。資料已經準備好了,就差模式,也就是找到需求或者能更深層次驅動大資料利用的產品,而不是用大資料改進自己的產品。騰訊還在觀望,等其他人去試錯驗證出一套模式或者產品後,自己可以“站在巨人肩上”。這是騰訊的典型思維。 在人才方面,騰訊很早便開始重金挖人。尤其是2010年在Google宣佈退出中國後,Google圖片搜尋創始人朱會燦、Google中國工程研究院副院長顏偉鵬、Google中日韓文搜尋演算法的主要設計者,《浪潮之巔》及《數學之美》作者吳軍相繼加入騰訊。搜搜花了很多錢,但被認定為一款無法承載騰訊重託的產品,最後這些大牛都走了。大都回Google了。 騰訊在大資料領域也缺少技術帶頭人。其對公關也不重視。技術大牛很少出來做報告,更不會向百度、阿里那樣主動包裝宣傳技術大牛。其技術雖然低調,但執行力很強。據騰訊的程式設計師朋友說封閉開發、集體加班是常有的事情。但配套的重金激勵也能跟上。重金之下必有勇夫、騰訊用制度保障技術產出。另外騰訊在高校合作領先一步,在2010年便與清華大學合作成立了清華騰訊聯合實驗室。 這麼看騰訊的技術人才這塊似乎有短板。會不會到時候馬化騰按下啟動按鈕,發現沒資料探勘能力呢?不會,騰訊搞不定資料探勘,到時候依然可以挖到大牛,甚至讀論文來搞定這事兒。資料探勘已較為成熟。資料探勘實際是資料庫、統計學、機器學習三個領域的融合。在學術界已經發展多年。不過自然語言識別和深度學習等方面要趕上百度,就難了。除非將百度的資料和眾大牛一起倒騰過來。 總體來看,騰訊目前的大資料策略是先將產品補全,產品後臺資料打通,形成穩定生態圈。本階段先利用大資料探勘改進自己的產品。後期有成熟的模式合適的產品,則利用自家的社交及關係資料時,開展對大資料的進一步挖掘。 三、阿里巴巴:坐擁金資料,嘗試做面向未來的資料集市 阿里巴巴B2B出身,在外貿蓬勃的大環境下,依靠服務中小企業發家。淘寶、支付寶等toC的產品出生前,阿里並不依賴也不擅長技術。業界普遍認為阿里沒有技術基因。直到淘寶、支付寶以及天貓三個產品後,對海量使用者大併發量交易、海量貨架資料的管理、安全性等方面的嚴苛要求,阿里完成進化,在電商技術上取得不菲的成績。在一段時期阿里仍然浪費了手裡掌握的大量資料。這些資料還是“最值錢”的金資料。 資料探勘無非是從原始資料提取價值。阿里現有的資料產品例如資料魔方、量詞統計、推薦系統、排行榜以及時光倒流相對來說是比較簡單的BI(商業智慧),沒到大資料的階段。 “大資料”浪潮襲來,阿里提出“資料、金融和平臺”戰略。前所未有地重視起對資料的收集、挖掘和共享。馬雲在“退居”前動不動都對外提“資料”。有位阿里朋友甚至開玩笑說,馬雲英文名可以從Jack Ma改為Data Ma。阿里現CEO陸兆禧曾做過CDO,首席資料官。為了用資料來驅動阿里電商帝國,阿里還成立了橫跨各大事業部的“資料委員會”。 阿里的各項投資案也顯示其整合、利用和完善資料的野心:新浪微博的社交及媒體資料、高德的地圖資料和線下資料以及友盟的移動應用資料,都是其資料及平臺戰略的一部分。資料戰略正在首席人工智慧官(CBO)車品覺領頭下逐步落地,王堅的云為其提供基礎設施、基礎技術支撐。 就在馬雲退休之後,王堅對外透露其跟馬雲開玩笑說的一句話:阿里巴巴對資料的理解深度,不會超過蘇寧對電子商務的理解。估計馬雲不一定認同他這話。馬雲對大資料已經有著自己的理解和考量。 馬雲曾經說過其對大資料的思考。大致意思是:現在從資訊時代進入資料時代了。區別是資訊時代更多的是精英玩的遊戲。我比別人聰明,我能提取出資訊出來;資料時代,別人比我聰明,將資料開放給更聰明的人處理,資料即資產,分析即服務。 計算機發展的過程是從象牙塔、到平民到草根。大資料也是這樣,一開始在象牙塔階段,少數精英公司才能玩;但到後面只要有資料就有價值。資料也有所有權,產生資料、流通資料、挖掘資料的都會獲得相應的價值。而阿里擅長的便是“建立市場”,建立一個數據交易市場。屆時任何個人和企業都可以將資料和挖掘服務拿上去,交易。初期阿里會將自己珍藏的電商和信用資料逐步放到上面。 有資料的人,拿上去賣,或者讓別人分析,分析即服務。沒有資料的人,即可以去買,也可以去幫別人挖掘,做礦工。 阿里並不是技術驅動,而是業務驅動的。因此在技術層面我們看到,基於前面提到的阿里大資料思路,其技術重心主要在系統層面。阿里擁有LVS(Linux Virtual Server,Linux虛擬伺服器)開源軟體創始人章文嵩,Linux Kernal、檔案系統、大牛DBA等領域的大牛。從人才佈局可以看到阿里擅長的技術領域,體現在對於併發訪問、電信級別的電商業務的支撐方面的得心應手。在去年雙十一期間,支撐了單日過億的訂單量。鐵道部奇葩網12306在日均40萬時已經不行了。 總體來看,阿里更多是在搭建資料的流通、收集和分享的底層架構。自己並不擅長似乎也不會著重來做資料探勘的活兒。而是將自己擅長的“交易”生意擴充套件到資料。讓天下沒有難做的“資料生意”。 總結一下 移動網際網路浪潮下,現實世界正在加速數字化,每個人,每個物體、每件事情、每一個時間節點,都在向網上對映。空間和時間兩個維度的聯網,使得數字世界正在接近一步步模擬現實世界。歷史、現在和未來都會對映到網上。對大資料的挖掘正是對世界的二次發現和感知。BAT三巨頭已經出發。

相關推薦

BAT巨頭開挖資料

阿里巴巴CTO即阿里雲負責人王堅博士說過一句話:雲端計算和大資料,你們都理解錯了。 實際上,對於大資料究竟是什麼業界並無共識。大資料並不是什麼新鮮事物。資訊革命帶來的除了資訊的更高效地生產、流通和消費外,還帶來資料的爆炸式增長。“引爆點”到來之後,人們發現原有的零散的對資料的利用造成了巨大的浪費。移動網際

分析 BAT 網際網路巨頭資料方向佈局及資料未來發展趨勢

> 風起雲湧的大資料戰場上,早已迎百花齊放繁榮盛景,各大企業加速跑向“大資料時代”。而我們作為大資料的踐行者,在這個“多智時代”如何才能跟上大資料的潮流,把握住大資料的發展方向。 ### 前言 大資料起源於2000年左右,也就是網際網路高速發展階段。經過幾年的發展,到2008年 Hadoop

進階指南|個月資料工程師學習計劃

申明:本文旨在為普通程式設計師(Java程式設計師最佳)提供一個入門級別的大資料技術學習路徑,不適用於大資料工程師的進階學習,也不適用於零程式設計基礎的同學。 前言 一、背景介紹 本人目前是一名大資料工程師,專案資料50T,日均資料增長20G左右,個人是從Java後端開發,經過3個月的業餘自學成功轉型大

資料之Spark()--- Spark核心API,Spark術語,Spark三級排程流程原始碼分析

一、Spark核心API ----------------------------------------------- [SparkContext] 連線到spark叢集,入口點. [HadoopRDD] extends RDD 讀取hadoop

資料之scala() --- 類的檢查、轉換、繼承,檔案,特質trait,操作符,apply,update,unapply,高階函式,柯里化,控制抽象,集合

一、類的檢查和轉換 -------------------------------------------------------- 1.類的檢查 isInstanceOf -- 包括子類 if( p.isInstanceOf[Employee]) {

資料之電話日誌分析callLog案例(

一、查詢使用者最近的通話資訊 -------------------------------------------- 1.實現分析 使用ssm可視介面提供查詢串 -- controller連線 hiveserver2 -- 將命令轉化成hsql語句 -- hive繫結hba

資料Hadoop學習筆記(

1.HDFS架構講解 2.NameNode啟動過程 3.YARN架構組建功能詳解 4.MapReduce 程式設計模型 HDFS架構講解 源自谷歌的GFS論文 HDFS: *抑鬱擴充套件的分散式系統 *執行在大量普通的鏈家機器上,提供容錯機制 *為

BAT企業招聘的職位裡,60%以上都在招資料人才!

大資料是目前IT領域最炙手可熱的技術,沒有之一,並且它與很多新型技術都是相關的,如無人駕駛、人工智慧、機器學習等。無論在國內還是國外,大資料人才的需求量很大,這無疑為IT從業人員提供了一個廣闊的天地。   據最新發布的《大資料人才報告》顯示,目前全國的大資料人才僅46萬,未來3-5年內大資料

分鐘解讀2018年想轉行資料,該如何開始呢?

你在公司裡表現很好,佈置的任務總是能又好又快的完成,但兩年來你的工資一直是1萬3,多次跟領導提出加薪,結果領導每次都是哦哦哦知道了。你心裡知道,現在的工作遇到了瓶頸,薪資想要有50%以上的增長已經很難了,能做的也只有轉行。 很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什

資料學習第一天——linux常用命令(

三 檔案操作 1建立檔案 touch somefile.txt 建立一個空檔案somefile.txt > 重定向操作符  echo "woshiwoa"> some.txt 將woshiwoa寫入到some.txt 檔案中,如果檔案不存在則會創建出來 echo "www.ba

作為阿里雲年薪500k資料工程師必須掌握以下種技能

阿里雲 大資料在近幾年的發展速度確實超出人們的預料,自2014年3月“大資料”首次出現在《政府工作報告》中以來,國務院常務會議一年內6次提及大資料運用,而且不管是在數博會還是今年的G20當中,大資料“存在感”極高。我是一個大資料程式設計師,建了一個大資料資源共享群5931

資料專案實戰之 --- 某App管理平臺的手機app日誌分析系統(

一、建立hive分割槽表 ---------------------------------------------------- 1.建立資料庫 $hive> create database applogsdb; 2.建立分割槽表 編寫指令碼。

Hadoop(資料離線計算與實時計算

分享一下我老師大神的人工智慧教程吧。零基礎,通俗易懂!風趣幽默!http://www.captainbed.net/ 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

0基礎資料程式設計怎麼學?個步驟+加一套完整學習體系 教你入門

對於零基礎的朋友,一開始入門可能不會太簡單。大資料零基礎怎麼學?大資料零基礎學什麼?難嗎?要學習大資料你至少應該知道什麼是大資料,大資料一般運用在什麼領域。對大資料有一個大概的瞭解,你才能清楚自己對大資料究竟是否有興趣 你知道什麼是大資料嗎? 要學習大資料你首先應該知道什麼是大資料,大資料一般運用在什麼領

分鐘解讀零基礎如何高效學習資料

在我們的生活中,你用微信的時候,你用高德地圖的時候,你用電腦的時候,你用某寶網購的時候......無時無刻不在製造資料,而這些資料在“有心人”的利用下,將會給我們的生活帶來巨大變化。如今90%的企業都在運用或者都想要利用大資料為其帶來更便利的服務,從而大資料高階軟體類人才可謂供不應求。 資料分析師已成為

螞蟻花唄 面題目:紅黑樹+併發容器+CAS+Solr+分散式+資料

螞蟻花唄一面(一個小時): Java容器有哪些?哪些是同步容器,哪些是併發容器? ArrayList和LinkedList的插入和訪問的時間複雜度? java反射原理, 註解原理? 新生代分為幾個區?使用什麼演算法進行垃圾回收?為什麼使用這個演算法? Ha

資料領域這位頂尖科學家,全球資料工程師都要感激他們

全球 大資料是眼下非常時髦的技術名詞,與此同時自然也催生出了一些與大資料處理相關的職業,通過對資料的挖掘分析來影響企業的商業決策。這群人在國外被叫做資料科學家(Data Scientist),這個頭銜最早由D.J.Pati和Jeff Hammerbacher於2008年提出,他們後來分別成為了領英(

BAT資料電商畫像實戰

課程介紹 本課程主要圍繞電商,打造一個電商畫像平臺,利用電商畫像進行如下分析 1)使用者的行為事件分析 2)精準營銷和廣告投放 3)使用者畫像、使用者分群對比分析 4)使用者實時畫像,活躍資料監控 軟體準備 Hadoop 2.7.1 Hive 1.2.1 spark2.2.0 fli

我轉行做資料工程師,同行都笑我,直到個月後.............

【不要錯過文末彩蛋】 申明: 本文旨在為普通程式設計師(Java程式設計師最佳)提供一個入門級別的大資料技術學習路徑,不適用於大資料工程師的進階學習,也不適用於零程式設計基礎的同學。 前言: 一、背景介紹 二、大資料介紹 正文: 一、大資料相關的工作介紹 二、大資料工程師

初識資料. Hadoop與MPP資料倉庫)

  MPP代表大規模並行處理,這是網格計算中所有單獨節點參與協調計算的方法。 是將任務並行的分散到多個伺服器和節點上,在每個節點上計算完成後,將各自部分的結果彙總在一起得到最終的結果。 MPP DBMS是建立在這種方法之上的資料庫管理系統。在這些系統中的每個查詢都會被分解為由MPP網格的節點並行執行