1. 程式人生 > >大數據,只看這個就夠了

大數據,只看這個就夠了

性能 語言 order nbsp 人工 之間 hdf ima 數據運維

2016年5月25日上午,由貴州省政府舉辦的以"大數據開啟智能時代"為主題的中國大數據產業峰會在貴陽開幕,國務院總理李克強發表主旨演講。騰訊集團馬化騰,高通公司總裁Derek Aberle,百度公司李彥宏,微軟全球陸奇,京東集團劉強東,阿裏巴巴王堅,滴滴出行程維,HTC王雪紅,戴爾Michael Dell等重要嘉賓出席會議並發言。至此,大數據發展已經上升到國家戰略層次,其熱度可見一斑。如圖一為李克強總理發表講話:

技術分享

圖一

  自2016年起,大數據與人工智能,虛擬現實相繼重新進入了我們的視線,不論是貴陽的大數據產業峰會,還是BAT巨頭對大數據作出的投資,可謂是屢放大招,頻頻吸引我們的眼球。那麽大數據究竟是什麽神奇的東西呢?讓我們揭開大數據面紗感受它的改變世界的神奇吧!

那麽究竟什麽是大數據呢?

  大數據是具有海量、高增長率和多樣化的信息資產,它需要全新的處理模式來增強決策力、洞察發現力和流程優化能力。其特點是數據量大,形式多樣,讀寫速度快,如圖二,三為大數據渲染圖:

技術分享 技術分享

圖二 圖三

  在大數據裏大概可以分為兩個體系,數據分析師和Hadoop工程師,在數據分析體系下業務數據分析師和數據挖掘工程師,在Hadoop裏可分為開發工程師,架構工程師,運維工程師。另外大數據可以提供的工作有大數據分析工程師、大數據咨詢顧問、大數據統計工程師、大數據運營經理、大數據挖掘與處理專員、大數據存儲工程師。詳見圖四:

技術分享

圖四

  現如今,大數據業界內部有非常多就業機會,尤其是北京,上海,深圳,杭州急需大數據相關專業型人才。現收集大數據在北京的相關職位相關薪資如表一所示:

職位 Hadoop開發工程師 數據挖掘工程師 數據分析工程師 數據運維師
工作地 北京 北京 北京 北京
平均薪資 1.9萬 2.1萬 1.1萬 1.0萬
3-5年工作經驗 1.5-3萬 1.5-3萬 0.5-3萬 1.3-5萬

表一:北京數據工程師薪資表

  從今年4月份北京市公布的數據來看,北京2016平均工資8717元,智聯招聘統計了2016年下半年互聯網/電子商務、網絡遊戲、計算機軟件、計算機硬件、IT服務、電子技術/半導體/集成電路等6個細分行業的企業招聘職位信息。

在2016年6月前,大數據的平均薪水為6K,之後,行業薪資水平顯著提高,平均水平在15K,最低工資漲幅不大,在北京平均工資水平為8717元,行業內平均工資水平已達到甚至超越北京市人均工資水平。如圖五所示:

技術分享

圖五

  1年內對498份Hadoop開發工程師進行樣本數據分析,月平均工資為19050元,月收入在1W~3W的員工占絕大比重,達到81.3%,其中在月收入在1W~1.5W之間占比19.5%,1.5W~2W之間占比29.7%,2W~3W占比32.1%。另外,工作經驗是決定薪資水平的一大因素,我們可以看出,擁有的工作經驗越豐富,往往可以得到比較高的薪酬。 如圖六,圖七,圖八所示:

技術分享 技術分享

圖六 工資收入 圖七 按工作經驗分

技術分享

圖八 歷年平均薪資

  數據挖掘工程師在北京的薪資待遇如圖九,圖十,圖十一所示:

技術分享 技術分享

圖九 工資收入 圖十 按工作經驗分

技術分享

圖十一 歷年平均薪資

  數據分析工程師在北京的薪資待遇如圖十二,圖十三,圖十四所示:

技術分享 技術分享

圖十二 工資收入 圖十三 按工作經驗分

技術分享

圖十四 歷年平均薪資

  數據運維師在北京的薪資待遇如圖十五,圖十六,圖十七所示:

技術分享 技術分享

圖十五 工資收入 圖十六 按工作經驗分

技術分享

圖十七 歷年平均薪資

  大數據工資竟然這麽高,看得我蠢蠢欲動呢,那麽大數據裏都包含哪些理論呢?大數據的知識體系暫時分為5個部分:

  第一部分:java語言基礎與Linux系統基礎,包括java語言的面向對象編程,網絡編程,Linux系統的基本命令操作和系統下shell腳本的使用。Linux系統對於編程而言,擁有開源,免費,穩定,安全,高效的優點。Java Web 大數據同系連枝,這造成了java語言成為和大數據平臺交互的主流語言。

  第二部分:數據平臺(Hadoop),數據存儲,資源調度與監控集群資源。在Hadoop平臺下,分布式文件系統HDFS來存儲海量數據,分布式資源管理框架YARN管理集群資源和MapReduce、Spark應用的資源實現資源的調度監控。

  第三部分:數據處理,Spark框架。kafka(分布式高吞吐的輕量級消息系統,Storm(實時的、分布式以及具備高容錯的計算系統)實時數據處理,Redis(高性能key-value)數據庫,Spark(數據平臺)的應用,內存計算框架Spark以及Impala查詢。

  第四部分:數據挖掘、數據分析與機器學習。應用Python語言來實現常出庫,網絡爬蟲,Solr集群,機器學習,Mahout技術學習

  第五部分:大數據運維,雲計算平臺管理。運維基礎zookeeper框架,Docker引擎以及OpenStack雲計算平臺。

  這麽多公司都在大量招收大數據專業人才,那麽都有哪些成功的案例值得參考呢?

  電子商務:淘寶網平臺用戶/商戶行為分析。利用大數據技術,建立人群分布,尤其是以性別,年齡,工作,地域為主的成交量數據分布模型;建立類品分布,尤其是以食品,服飾,書籍,藥品,數碼,母嬰,家居為主的成交量數據分布模型;通過海量數據進行分析計算資源整合,從而,及時有效調整公司戰略方針,有效調整商業結構,做到對在不同城市,年齡段,工作的客戶有針對性的區別對待,來進一步擴大平臺的利潤。如圖十八,圖十九所示:

技術分享 技術分享

圖十八 圖十九

  零售業:沃爾瑪連鎖百貨數據分析。在美國,沃爾瑪通過數據關聯規則發現一種類似草莓的水果在臺風發生前後銷售量相差7倍,通過數據挖掘確定了該水果在臺風的影響下的銷量關系,從而在之後的臺風發生前期將所有該水果全部簽出,有效的降低商場存貨,提高商場的經濟效益。如圖二十所示:

技術分享

圖二十 消費變化數據示意圖

  航空:Farecast靠大數據預測機票價格。2003年,Oren Etzioni將要乘坐從西雅圖到洛杉磯的飛機,他認為機票越早買越便宜,在飛機上,他好奇地問鄰座的乘客花了多少錢購買機票。事實卻是那個人的機票比他買得更晚,但是票價卻比他便宜得多,於是,他又詢問了另外幾個乘客,結果發現大家買的票居然都比他的便宜,他非常氣憤,他想要開發一款可以預測機票價格走勢的軟件,最終由此成立公司運營該軟件。基於深度學習及數據挖掘技術,預測航班未來可能出現的低價,提前給出報價銷售給消費者。2008年微軟公司找上了他並以1.1億美元的價格收購了Farecast公司。而後,這個系統被並入必應搜索引擎。被稱為"一張機票成就了Farecast"。

  警務:利用大數據分析犯罪高發地點。洛杉磯警察局曾經借助一套原本用於預測地震後余震的大數據模型,把過去80年內的130萬個犯罪記錄數據輸入進去,結果發現其預測出的犯罪高發地點與現實驚人的吻合。後來該預測算法經過改進,已經成為了當地警局重要的參考依據,大大降低了當地的犯罪率。如圖二十一所示:

技術分享

圖二十一

  

  不禁有人就有疑問了,既然大數據這麽火爆,就像當年的O2O一樣,所有人都想到裏面分一杯羹,可是市場就這麽大,到底有多少是炒作,大數據又能火多久呢?

  最近凱捷咨詢和Informatica共同進行了一項和大數據相關的商業調查,調查人群包括在美國和歐洲的大型企業和其高管。分析結果發現:少於三分之一的大數據項目被認為是盈利的;剩下的45% 是持平12%是虧損,12%很難確定他們的大數據項目是盈利還是虧損(如圖二十二)

技術分享

圖二十二

  其實這些數據並不是那麽讓人驚訝, 凱捷全球大數據副總史蒂夫說"許多的大數據項目是為了解決技術學習曲線的目標(比如如果建立大數據集群)而進行,這些項目甚至於並沒有考慮投資回報ROI"。也就是說一些大型企業目前在實施的大數據項目的目的是提高數據專家對大數據的理解,而不是提高投資回報ROI。

  雖說大數據上升到了國家戰略層次,但回想到同為國家戰略層次的互聯網+下的O2O商業模式,還是要擦亮雙眼慎重考慮。數據科學在多年前就被提上日程,早些年由於技術手段有限,面對龐大的數據,數據的價值不容易被挖掘出來,近些年技術和數據的雙重積累極大地促進了大數據領域的發展。

  由此看來,大數據雖然火爆,但也是風險與機遇並存,小夥伴們,你們懂大數據了嗎?

大數據,只看這個就夠了