1. 程式人生 > >阿裏,騰訊內部十二個大數據項目,你都有做過嗎?

阿裏,騰訊內部十二個大數據項目,你都有做過嗎?

大數據

隨著社會的進步,大數據的高需求,高薪資,高待遇,促使很多人都來學習和轉行到大數據這個行業。學習大數據是為了什麽?成為一名大數據高級工程師。而大數據工程師能得到高薪、高待遇的能力在哪?自然是項目經驗。下面給大家大概介紹一下在阿裏的"雙11"、"雙12"、"雙旦"即將到來的"618"與騰訊大數據都用上的十二個大數據項目:
阿裏,騰訊內部十二個大數據項目,你都有做過嗎?
一個大數據分析項目關鍵構成如下:

信息采集組、數據清洗組、數據融合組、數據挖掘組、數據可視化組。

根據每組的名稱很好理解。

信息采集組主要是通過網絡爬蟲來采集數據,當然還可以根據業務需求,通過不同的方式來采集數據;

數據清洗組主要就是把一些無效的臟數據找出來剔除或者替換,任務量其實很大,因為爬來的數據臟數據量很大,這個組的工作周期一般很長,任務也很重;

數據融合組主要就是把爬來的課程信息把相似的歸類,有上下級關系的就按照子類父類的關系列好,這一組的工作非常不好完成,目前我們做的融合效果不算好,想融合好算是一個難點。

數據挖掘組就是拿到可用的數據之後通過數據挖掘算法,去研究之前設定好的影響因子之間的因果關系,主要的分類算法有決策樹、貝葉斯分類、基於規則的分類、神經網絡、持向量機 、懶惰學習算法中的K-最近鄰分類和基於案例的推理等算法;

數據可視化組顧名思義就是把數據挖掘組的成果可視化展示,這樣可以直觀的看到數據之間的關系,並利用數據分析和開發工具發現其中未知信息的處理過程

阿裏,騰訊內部十二個大數據項目,你都有做過嗎?
了解大數據的項目構成,那麽怎麽成功的做成一個項目呢?該怎麽去做呢?

成功項目的標誌

成功很多時候跟失敗是反過來的:

一是項目用例(目標/實用價值)清晰。

從上到下,大家都明白這個大數據要做什麽,包括企業的財務主管和具體業務部門,比方說營銷部門,這個大數據項目是用在營銷部門的,他們也很清楚,負責執行的技術部門也很清楚,這個搞清楚了以後,對大家上下一心做好項目是非常重要的。

二是項目規劃完善+快速叠代研發試錯穩步推進。

一個項目規劃的時候,不要做成規劃三個月、六個月,你用傳統的老辦法去做,最後發現實際上第一階段結束了以後,你去做測試完全沒有達到你想要的效果。我們做一個大項目要用快速叠代的方法來做,每個星期可以推出一個功能,進行快速測試,內部市場、外部市場都測試成功,下一個星期就可以進行下一個功能的研發、擴展、推廣。這樣的話,可以通過迅速的試錯,比方說第二個星期做的方向不對,或者有些功能沒有辦法實現,或者跟我設計的不一樣,這樣的試錯代價會比較低,不會等到6個月才發現有重大的錯誤,調整了以後第三個星期可以接著來,可以換一個方向,可以調整開發的內容,或者是功能,三個月以後,已經經過了四、五個星期的測試和研發了,基本上犯錯的可能性就比較低了。

三是所選技術符合大數據項目功能要求。

很多人都聽說過要上一個大數據項目必須要用一些特殊的技術,大數據項目最重要的不是選高大上的平臺,或者是特殊的技術,最重要的是選一款符合最初設計的業務功能的技術,這個技術可能相對來說比較簡單,可能是SAS軟件,或者是JAVA程序,沒必要上高大上的技術,最重要的是符合你的要求。很多企業選了高大上,最後發現,實際上錢花了很多,但是沒有達到預期的要求,因為你選了高大上的東西以後,會影響到各個方面的整合和所需要的數據量,預算會很大,成本也會比較高,很難實現盈利的目標。所以最重要的是選一款適合你這個項目目標的技術,這個非常重要。

四是項目團隊擁有各方面專業知識技能。

大數據技術就像企業做的任何一款創新產品和項目一樣,需要雇傭所有的對這個項目有貢獻的,可能會受影響的資源,可能包括人力資源,包括技術資源,包括市場資源,包括運營資源等等各個方面的資源調動,形成這麽一個團隊,上面有領導的支持,中間有大家的共識,最下面的一線執行人員也很清楚自己要做什麽,這方面要協調好,要有專門的技術,這個很重要。

五是項目成果獲得業務用例期望成果。 這個項目做了三個月、六個月,做出來了,是不是獲得了業務用例期望的結果,是一個非常重要的標誌。很多時候,很難是百分之百,一般80%的項目達不到完全預期的結果,可能是80%的預期達到了,那已經很好了,可能達到50%,也不錯,因為是一個創新的項目,可以根據達到的預期項目進行不停地調整,最差的是只達到了20%,很多企業做的項目結果,這是一個統計的結果,是大家能看得見的。根據業界的標準,到了50%基本上算比較成功了,到了80%就是相當好了。 成功大數據項目的衡量標準

成功的項目橫向標準是五點:

一是項目在預定的時間裏可以實現或者接近預定的目標;

二是這個項目或者產品實現了傳統數據方法沒有辦法帶來的特殊的內部和外部的商業價值;

三是在有限的大數據投資的條件下,給特定的業務帶來的好處可以輕松復制到其它的業務領域,比如說營銷部門獲得的成功會推廣到產品的研發部門,或者是推廣到業務運營部門,這樣會花很小的代價,但是做了更多的事兒。

四是受益的業務部門可以運用大數據工具進行高效便捷的工作,這其實是最直接了當的,因為本來我們要做一款大數據的產品,或者是服務項目就是為了提高運營效率和工作效率。

五是通過這個項目實施企業獲得了新的商業模式和成長點,這個是最重要的,從戰略的角度講,這個大數據產品和項目成功實現了企業轉型和升級。

成功大數據項目的路線圖

成功大數據的路線圖分為六步:

第一步:確定對企業業務有重大影響的大數據用例和創新方向。

第二步:我們要制定基於大數據項目的詳盡的產品服務創新規劃。

第三步:要詳細了解大數據項目所需要的業務功能要求和選擇與之相匹配的技術。

第四步:就大數據項目帶來的商業利益在企業內部達成共識。

第五步:我們要選擇容易實現的目標入手,快速叠代研發、試錯、穩步推進。也就是說不要剛開始就要搞高大上、大而全的項目,因為失敗的幾率幾乎是百分之百,非常容易失敗,因為預算太大,選的工具太復雜,調動的資源很多,很難一下子實現所有的目標,所以通常我們從一個曉得目標,容易實現的目標開始,這樣可以鼓勵士氣,錯誤犯在研發的初期,而不是在中期和最後,這個最重要。

第六步:做大數據項目和產品一定要挖掘和實現大數據能給我們帶來的特殊價值,這是其它的方法或者是其它類的數據做不到的,只有實現了這種特殊的價值,我們才能實現業務所需要的具體功能,不管是擴展市場的份額,或者是更精準的了解你的客戶需求,還是說你要增加邊際利潤率,或者是提高產品上市的速度,縮短研發周期,這些都是大數據可以做的。另外就是跨界創新,傳統企業可以通過大數據這個紐帶跟其他企業的業務結合起來。

下面我就給大家介紹一下十二個各個領域都包含的項目案列

以下項目小編都有搭建與設計視頻,有一定大數據基礎與工作經驗的朋友是可以根據視頻內容完成整個項目的搭建的。非常的實用!需要視頻的朋友加我,下面就來給大家介紹一下這十二個項目主要的內容與領域的權重值:

1,離線數據處理:項目內容為通過對網站訪問日誌的采集和清洗,結合數據庫中的結構化用戶數據,統計並展示網站的PV、UV情況,以對網站的運行情況進行監控。通過此項目,回顧並串聯前面講述的離線數據處理相關技術,如:FIune、Sqoop、Hive、Spark等,了解和掌握PB級數據離線處理的一般過程和架構。

2,流式數據處理:項目內容為通過對數據庫交易數據修改的實時同步,監控網站實時交易情況,以提高網站交易情況監控的時效性,降低網站運行的風險。 通過此項目,回顧並串聯前面講述的實時數據處理相關技術,如:kafka、Spark、Streaning和HBase等,了解和掌握實時數據處理的一般過程和架構。

3,推薦系統:項目內容,基於公開數據庫的商品推薦,某大型互金公司產品推薦系統剖析, 通過對公司實際推薦項目的剖析和根據真實數據搭建推薦系統的實操演練,了解推薦系統的一般架構和常用算法。

4,搜索系統:項目內容,通過網站爬蟲爬取網站數據,然後基於KlastlcSeard和Klbana搭建一個完整的搜索系統。

5,系統運行情況儀表盤: 通過對網站訪問日誌的采集和清洗,結合數據庫中的結構化用戶數據,統計並展示網站的PV,UV情況,以對網站的運行情況進行監控。通過此項目,回顧並串聯前面講述的離線數據處理相關技術,如Flume,Sqoop,Hive,Spark等,掌握PB級數據離線處理的一般過程和架構。

6, 實時交易監控系統 : 過對數據庫交易數據修改的實時同步,監控網站實時交易情況,以提高網站交易情況監控的時效性,降低網站運行的風險。通過此項目,回顧並串聯前面講述的實時數據處理相關技術,如Kafka,Spark Streaming和HBase等,掌握實時數據處理的一般過程和架構。

7,推薦系統理論與實戰: 講解推薦系統的相關背景,常用算法及通用架構;基於公開數據集從零構建一個電影推薦系統。通過對公司實際推薦項目的剖析和根據真實數據搭建推薦系統的實操演練,了解推薦系統的一般架構和常用算法

8,數據倉庫搭建理論與實戰: 講解數據倉庫搭建的方法論,常用建模理論;以互金公司數據倉庫搭建場景作為切入,實例演示數據倉庫搭建過程及技術架構。

9,分布式業務監控系統: 講解業務監控系統需求背景,基於大數據的技術方案;通過實例代碼搭建完整的業務監控系統

10,基於ES的日誌系統 : 基於Flume,ElasticSearch等技術搭建系統日誌收集與查詢系統。

11,信貸需求預測系統: 以京東信貸需求預測競賽為背景,實例講解數據挖掘項目中如何設計特征,模型基礎,建模以及調參等。

12,用戶畫像系統 : 講解用戶畫像系統的需求背景,基於大數據技術的解決方案;通過實例代碼演示用戶畫像系統的搭建。

做好一個項目需要花掉好多時間去做,我希望大家在努力工作的同時也要註意自己的身體,身體是革命的本錢,也祝願每個奮鬥的人身體健康,事業有成,希望大家多多關註吧,

阿裏,騰訊內部十二個大數據項目,你都有做過嗎?