1. 程式人生 > >職業發展之大資料開發工程師理解

職業發展之大資料開發工程師理解

大資料工程師需要具備哪些能力? 

(1)數學及統計學相關的背景;

(2)計算機編碼能力;

(3)對特定應用領域或行業的知識。

大資料工程師這個角色很重要的一點是,不能脫離市場,因為大資料只有和特定領域的應用結合起來才能產生價值。

所以,在某個或多個垂直行業的經歷能為應聘者積累對行業的認知,對於之後成為大資料工程師有很大幫助,因此這也是應聘這個崗位時較有說服力的加分項。

大資料相關的技能很多,按照資料本身,可以分為資料獲取、資料處理、資料分析、資料儲存、資料探勘,共5類。

資料獲取:日誌收集 Scribe、Flume和爬蟲等;

資料處理:流式計算的storm, spark streaming、Hadoop、訊息佇列相關的如Kafka等;

資料分析:HIVE、SPARK、基本演算法、資料結構等;

資料儲存:HDFS等;

資料探勘:機器學習相關演算法,聚類、時間序列、推薦系統、迴歸分析、文字挖掘、貝葉斯分類、神經網路等。

最後,大講臺老師對轉型大資料的工程師提3點建議。

(1)重視基礎;

(2)發揮專長;

(3)要喜歡&要堅持。


通過人工智慧技術提供定製分析報告的法海風控、對社交資料的爬取和處理的觀數科技等,業務型別各有側重。而在金融領域,大資料的應用主要有以下三類:精準營銷、風險控制以及精細化運營。

1、精準營銷: 網際網路時代的銀行在網際網路金融的衝擊下,迫切的需要掌握更多使用者資訊,繼而構建使用者360度立體畫像,即可對細分的客戶進行精準營銷、實時營銷等個性化智慧營銷。
2、風險控制: 應用大資料技術,可以統一管理銀行內部多源異構資料與外部徵信資料,可以更好的完善風控體系。內部可保障資料的完整性與安全性,外部可控制使用者風險。
3、改善經營:通過大資料分析方法改善經營決策,為管理層提供可靠的資料支撐,使經營決策更加高效、敏捷,精確性更高。
4、服務創新:通過對大資料的應用,改善與客戶之間的互動、增加使用者粘性,為個人與政府提供增值服務,不斷增強銀行業務核心競爭力。

其主要服務的客戶是各類金融機構,包括銀行、保險、P2P、小貸、消費金融等。當前付費客戶有50家,典型客戶有中國銀行、眾安保險,愛學貸和手機貸等。其盈利模式,是向客戶收取費用。當前已基本實現盈餘

新流資料成立於2017年,是一家基於資料即服務(DaaS)模式提供大資料智慧決策引擎的科技企業,公司通過DMP(資料管理平臺)與DRCP(資料風控平臺)的垂直對接為金融機構提供跨行業、跨場景的智慧資料解決方案。

新流資料主要合作物件為銀行和保險機構,為其提供使用者畫像、行為分析、風險預測、智慧決策等大資料服務

基於大資料的客戶關係管理系統 :案例

恆豐銀行——基於大資料的客戶關係管理系統  

https://www.sohu.com/a/150376929_400678

Storm與Spark的區別

Storm擅長於動態處理大量實時生產的小資料塊,概念上是將小資料量的資料來源源不斷傳給過程;

Spark擅長對現有的資料全集做處理,概念是將過程傳給大資料量的資料。

二者設計思路相反。Storm側重於處理的實時性,Spark側重處理龐大資料(類似於Hadoop的MR)。

 

Spark流模組(Spark Streaming)與Storm類似,但有區別:

1.Storm純實時,來一條資料,處理一條資料;SparkStreaming準實時,對一個時間段內的資料收集起來,作為一個RDD,再做處理。

2.Storm響應時間毫秒級;Spark Streaming響應時間秒級

3.Storm可以動態調整並行度;SparkStreaming不行

 

Storm應用場景:

1、對於需要純實時,不能忍受1秒以上延遲的場景

2、要求可靠的事務機制和可靠性機制,即資料的處理完全精準

3、如果還需要針對高峰低峰時間段,動態調整實時計算程式的並行度,以最大限度利用叢集資源

 

Spark Streaming應用場景:

1、Spark Streaming可以和Spark Core、Spark SQL無縫整合,如果一個專案除了實時計算之外,還包括了離線批處理、互動式查詢等業務功能,考慮使用Spark Streaming。