1. 程式人生 > >大資料平臺在網際網路行業的應用

大資料平臺在網際網路行業的應用

本文是58同城資訊系統部高階經理餘中洋對大資料在網際網路行業應用的總結。以實際經驗講解了大資料從雛形到發展,以及發展過程中傳統資料倉庫到大資料平臺的轉化和大資料的視覺化應用。

大資料顯雛形——發展

所有公司在一開始時,資料的建設都是比較落後的,但隨著網際網路的環境推動,以及公司計劃2013年在紐約交易所上市,這時候面臨一個很大的問題。在上市之前,公司的資料,無論是流量資料還是財務產品資料都需要經過非常嚴格的審計。為此,我們開始整理資料,做資料報表,花費一年多的時間做資料整理、資料規範,慢慢的大資料的平臺有了雛形。

後來公司上市之後,資料運營的重點從反映過去和現在的狀況轉變成指導業務、管理業績、支援銷售。

2015年到2016年這兩年,公司將目標投入到資料智慧上,建立了一個非常大的系統平臺,並且讓整個銷售和產品運營體系全面實施資料化運營。在這個平臺上,我們不僅僅要進行管理銷售,還要構建銷售能力模型,預測未來業績。因為在美國市場的股價,更多的是依賴公司未來的發展,公司未來預期決定了公司現在的股價,因此總共的業績預測非常重要,能夠非常精確的預測銷售更加重要。

大資料平臺建設

公司擁有很多的業務資料庫,有訂單、CRM、合同管理、人力資源等資料庫。以往,我們會把這些資料庫裡的資料做整合,做一個簡單的資料倉庫,然後根據業務需求,在資料整合的基礎上,通過帆軟報表建立一個決策系統,做資料展示,提供服務。這個過程的好處是開發成本低,投入成本低,技術架構簡單,可以非常快速的在公司內部執行起來。

但是這樣的方式隨著業務系統的增多,逐漸開始不適用。一是業務資料多樣化、資料未集中管理、有效利用資料難度大;資料儲存能力受限,無法追溯較遠的歷史資料。二是很多情況下,不同的產品經理和工程師所提的需求是不同的,而且這些不同的需求本身是交織在一起的。因此不同的團隊做出同樣的指標,由於資料指標定義不一致,存在意義相近重複指標的時候,管理層很難做出決策。三是分析和運營使用的資料渠道完全依賴於自身資料的監控,這會導致IT部門工作壓力較大。

除了以上反映的問題,公司在基於未來發展情況下又呈現了新一輪的現狀,並提出了以下需求:

  • 業務的多元化發展,公司大量的併購導致集團資料量和資料需求爆發式增長;
  • 資料網狀流通,基礎資料、資料指標缺少統一的元資料管理;
  • 為了更好發掘資料價值,提升資料能力、構建標準化資料體系成為當務之急。

大資料平臺業務架構

集團的業務架構大體可以分為幾塊內容。第一個是資料模型師。主要的工作是做好元資料管理,資料模型的開發以及建立統一的資料標準。第二個是資料開發員,它會對接產品,然後去做一些業務開發。第三個是業務人員,業務人員是運營、銷售、市場人員,在這個地方做了很多視覺化來幫助他們做出決策。最後是公司的資料分析部門,他們有很多對於審計包括公司一些非常核心的資料的分析需求,他們會通過獨立的資料查詢系統實現資料多維度分析。

 

下圖是技術架構,在底層進行資料儲存,抓取資料,並將儲存層的資料傳給處理層,在處理層完成業務計算,形成指標。然後前端通過帆軟報表的應用,將資料以業務報表的方式進行圖形化展示,並在移動報表APP上進行展示。

除去這個,我們還在管理上做了資料中心的建設規範。然後是資料質量管理,包括確保資料的準確性,為保證資料的及時性還建立了一個執行和管理規範。這四塊結合起來以保證平臺的平穩執行。

 


大資料視覺化

資料視覺化是這個平臺最後的一步也是應用範圍最廣的一步。這方面,由於我們

1、需求來源多:團隊需要同時對接財務部、銷售中心、客服中心、管理層等各級部門,且各個部門關注的指標千差萬別。

2、報表視覺化方式多:需要通過明細表、彙總表、鑽取表以及各類圖表來分別滿足各個部門的不同管理職級的需求,還要給給需求方提供離線報表、實時報表、郵件&簡訊推送資料等多種渠道。

3、自定義開發多:為了對接公司內部的業務系統,需要經常自定義開發。

所以,需要一個滿足這些需求的視覺化報表開發工具。這一塊,無論從最初的傳統資料倉庫方式還是現在的大資料平臺,我們都選擇了帆軟報表。

優勢如下:

  • EXCEL設計風格:操作介面大大降低了學習成本。
  • 多資料來源支援:接入個各個部門的各個型別的資料庫非常方便。
  • 優秀的圖示展示:HTML5圖表技術,支援多種圖表型別、樣式、風格,引數傳遞靈活,互動效果豐富。
  • 友好的介面:開發人員使用網頁尾本、API介面等進行深入的開發與控制,支援外掛開發、安裝、使用和管理,以滿足其個性化的需求。

視覺化展示: