1. 程式人生 > >如何才能成為一名大資料工程師?

如何才能成為一名大資料工程師?

大資料是眼下非常時髦的技術名詞,與此同時自然也催生出了一些與大資料處理相關的職業,通過對資料的挖掘分析來影響企業的商業決策。

這群人在國外被叫做資料科學家(Data Scientist),這個頭銜最早由D.J.Pati和Jeff Hammerbacher於2008年提出,他們後來分別成為了領英(LinkedIn)和Facebook資料科學團隊的負責人。而資料科學家這個職位目前也已經在美國傳統的電信、零售、金融、製造、物流、醫療、教育等行業裡開始創造價值。

不過在國內,大資料的應用才剛剛萌芽,人才市場還不那麼成熟,“你很難期望有一個全才來完成整個鏈條上的所有環節。更多公司會根據自己已有的資源和短板,招聘能和現有團隊互補的人才。”領英(LinkedIn)中國商務分析及戰略總監王昱堯對《第一財經週刊》說。

◆ ◆ ◆對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解

想學習的同學歡迎加入大資料學習qq群:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家

並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系 。
在這裡插入圖片描述

資料工程師是做什麼的?

於是每家公司對大資料工作的要求不盡相同:有的強調資料庫程式設計、有的突出應用數學和統計學知識、有的則要求有諮詢公司或投行相關的經驗、有些是希望能找到懂得產品和市場的應用型人才。正因為如此,很多公司會針對自己的業務型別和團隊分工,給這群與大資料打交道的人一些新的頭銜和定義:資料探勘工程師、大資料專家、資料研究員、使用者分析專家等都是經常在國內公司裡出現的Title,我們將其統稱為“大資料工程師”。

由於國內的大資料工作還處在一個有待開發的階段,因此能從其中挖掘出多少價值完全取決於工程師的個人能力。已經身處這個行業的專家給出了一些人才需求的大體框架,包括要有計算機編碼能力、數學及統計學相關背景,當然如果能對一些特定領域或行業有比較深入的瞭解,對於其快速判斷並抓準關鍵因素則更有幫助。

雖然對於一些大公司來說,擁有碩博學歷的公司人是比較好的選擇,不過阿里巴巴集團研究員薛貴榮強調,學歷並不是最主要的因素,能有大規模處理資料的經驗並且有喜歡在資料海洋中尋寶的好奇心會更適合這個工作。

除此之外,一個優秀的大資料工程師要具備一定的邏輯分析能力,並能迅速定位某個商業問題的關鍵屬性和決定因素。“他得知道什麼是相關的,哪個是重要的,使用什麼樣的資料是最有價值的,如何快速找到每個業務最核心的需求。”聯合國百度大資料聯合實驗室資料科學家沈志勇說。學習能力能幫助大資料工程師快速適應不同的專案,並在短時間內成為這個領域的資料專家;溝通能力則能讓他們的工作開展地更順利,因為大資料工程師的工作主要分為兩種方式:由市場部驅動和由資料分析部門驅動,前者需要常常向產品經理了解開發需求,後者則需要找運營部瞭解資料模型實際轉化的情況。

你可以將以上這些要求看做是成為大資料工程師的努力方向,因為根據萬寶瑞華管理合夥人顏莉萍(Nicole Yan)的觀察,這是一個很大的人才缺口。目前國內的大資料應用多集中在網際網路領域,有超過56%的企業在籌備發展大資料研究,“未來5年,94%的公司都會需要資料科學家。”顏莉萍(Nicole Yan)說。因此她也建議一些原本從事與資料工作相關的公司人可以考慮轉型。

用阿里巴巴集團研究員薛貴榮的話來說,大資料工程師就是一群“玩資料”的人,玩出資料的商業價值,讓資料變成生產力。大資料和傳統資料的最大區別在於,它是線上的、實時的,規模海量且形式不規整,無章法可循,因此“會玩”這些資料的人就很重要。

沈志勇認為如果把大資料想象成一座不停累積的礦山,那麼大資料工程師的工作就是,“第一步,定位並抽取資訊所在的資料集,相當於探礦和採礦。第二步,把它變成直接可以做判斷的資訊,相當於冶煉。最後是應用,把資料視覺化等。”

因此分析歷史、預測未來、優化選擇,這是大資料工程師在“玩資料”時最重要的三大任務。通過這三個工作方向,他們幫助企業做出更好的商業決策。

1.找出過去事件的特徵

大資料工程師一個很重要的工作,就是通過分析資料來找出過去事件的特徵。比如,騰訊的資料團隊正在搭建一個數據倉庫,把公司所有網路平臺上數量龐大、不規整的資料資訊進行梳理,總結出可供查詢的特徵,來支援公司各類業務對資料的需求,包括廣告投放、遊戲開發、社交網路等。

找出過去事件的特徵,最大的作用是可以幫助企業更好地認識消費者。通過分析使用者以往的行為軌跡,就能夠了解這個人,並預測他的行為。“你可以知道他是什麼樣的人、他的年紀、興趣愛好,是不是網際網路付費使用者、喜歡玩什麼型別的遊戲,平常喜歡在網上做什麼事情。”騰訊雲端計算有限公司北京研發中心總經理鄭立峰對《第一財經週刊》說。下一步到了業務層面,就可以針對各類人群推薦相關服務,比如手遊,或是基於不同特徵和需求衍生出新的業務模式,比如微信的電影票業務。

2.預測未來可能發生的事情

通過引入關鍵因素,大資料工程師可以預測未來的消費趨勢。在阿里媽媽的營銷平臺上,工程師正試圖通過引入氣象資料來幫助淘寶賣家做生意。“比如今年夏天不熱,很可能某些產品就沒有去年暢銷,除了空調、電扇,背心、游泳衣等都可能會受其影響。那麼我們就會建立氣象資料和銷售資料之間的關係,找到與之相關的品類,提前警示賣家週轉庫存。”薛貴榮說。

在百度,沈志勇支援“百度預測”部分產品的模型研發,試圖用大資料為更廣泛的人群服務。已經上線的包括世界盃預測、高考預測、景點預測等。以百度景點預測為例,大資料工程師需要收集所有可能影響一段時間內景點人流量的關鍵因素進行預測,併為全國各個景點未來的擁擠度分級—在接下來的若干天時間裡,它究竟是暢通、擁擠,還是一般擁擠?

3.找出最優化的結果

根據不同企業的業務性質,大資料工程師可以通過資料分析來達到不同的目的。

以騰訊來說,鄭立峰認為能反映大資料工程師工作的最簡單直接的例子就是選項測試(AB Test),即幫助產品經理在A、B兩個備選方案中做出選擇。在過去,決策者只能依據經驗進行判斷,但如今大資料工程師可以通過大範圍地實時測試—比如,在社交網路產品的例子中,讓一半使用者看到A介面,另一半使用B介面,觀察統計一段時間內的點選率和轉化率,以此幫助市場部做出最終選擇。

作為電商的阿里巴巴,則希望通過大資料鎖定精準的人群,幫助賣家做更好的營銷。“我們更期待的是你能找到這樣一批人,比起現有的使用者,這些人對產品更感興趣。”薛貴榮說。一個淘寶的例項是,某人蔘賣家原來推廣的目標人群是產婦,但工程師通過挖掘資料之間的關聯性後發現,針對孕婦群體投放的營銷轉化率更高。

◆ ◆ ◆
在這裡插入圖片描述

需要具備的能力

1.數學及統計學相關的背景

就我們採訪過的BAT三家網際網路大公司來說,對於大資料工程師的要求都是希望是統計學和數學背景的碩士或博士學歷。沈志勇認為,缺乏理論背景的資料工作者,更容易進入一個技能上的危險區域(Danger Zone)—一堆數字,按照不同的資料模型和演算法總能捯飭出一些結果來,但如果你不知道那代表什麼,就並不是真正有意義的結果,並且那樣的結果還容易誤導你。“只有具備一定的理論知識,才能理解模型、複用模型甚至創新模型,來解決實際問題。”沈志勇說。

2.計算機編碼能力

實際開發能力和大規模的資料處理能力是作為大資料工程師的一些必備要素。“因為許多資料的價值來自於挖掘的過程,你必須親自動手才能發現金子的價值。”鄭立峰說。

舉例來說,現在人們在社交網路上所產生的許多記錄都是非結構化的資料,如何從這些毫無頭緒的文字、語音、影象甚至視訊中攫取有意義的資訊就需要大資料工程師親自挖掘。即使在某些團隊中,大資料工程師的職責以商業分析為主,但也要熟悉計算機處理大資料的方式。

3.對特定應用領域或行業的知識

在顏莉萍(Nicole Yan)看來,大資料工程師這個角色很重要的一點是,不能脫離市場,因為大資料只有和特定領域的應用結合起來才能產生價值。所以,在某個或多個垂直行業的經歷能為應聘者積累對行業的認知,對於之後成為大資料工程師有很大幫助,因此這也是應聘這個崗位時較有說服力的加分項。

“他不能只是懂得資料,還要有商業頭腦,不論對零售、醫藥、遊戲還是旅遊等行業,能就其中某些領域有一定的理解,最好還是與公司的業務方向一致的,”就此薛貴榮還打了個比方,“過去我們說一些奢侈品店員勢利,看人一眼就知道買得起買不起,但這群人恰恰是有敏銳度的,我們認為他們是這個行業的專家。又比如對醫療行業瞭解的人,他在考慮醫療保險業務時,不僅會和人們醫院看病的記錄相關,也會考慮飲食資料,這些都是基於對該領域的瞭解。”

◆ ◆ ◆

職業發展

1.如何成為大資料工程師

由於目前大資料人才匱乏,對於公司來說,很難招聘到合適的人才—既要有高學歷,同時最好還有大規模資料處理經驗。因此很多企業會通過內部挖掘。

2014年8月,阿里巴巴舉辦了一個大資料競賽,把天貓平臺上的資料拿出來,去除敏感問題後,放到雲端計算平臺上交予7000多支隊伍進行比賽,比賽分為內部賽和外部賽。“通過這個方式來激勵內部員工,同時也發現外部人才,讓各行業的大資料工程師湧現出來。”

顏莉萍(Nicole Yan)建議,目前長期從事資料庫管理、挖掘、程式設計工作的人,包括傳統的量化分析師、Hadoop方面的工程師,以及任何在工作中需要通過資料來進行判斷決策的管理者,比如某些領域的運營經理等,都可以嘗試該職位,而各個領域的達人只要學會運用資料,也可以成為大資料工程師。

2.薪酬待遇

作為IT類職業中的“大熊貓”,大資料工程師的收入待遇可以說達到了同類的頂級。根據顏莉萍(Nicole Yan)的觀察,國內IT、通訊、行業招聘中,有10%都是和大資料相關的,且比例還在上升。顏莉萍(Nicole Yan)表示,“大資料時代的到來很突然,在國內發展勢頭激進,而人才卻非常有限,現在完全是供不應求的狀況。”在美國,大資料工程師平均每年薪酬高達17.5萬美元,而據瞭解,在國內頂尖網際網路類公司,同一個級別大資料工程師的薪酬可能要比其他職位高20%至30%,且頗受企業重視。

3.職業發展路徑

由於大資料人才數量較少,因此大多數公司的資料部門一般都是扁平化的層級模式,大致分為資料分析師、資深研究員、部門總監3個級別。大公司可能按照應用領域的維度來劃分不同團隊,而在小公司則需要身兼數職。有些特別強調大資料戰略的網際網路公司則會另設最高職位—如阿里巴巴的首席資料官。“這個職位的大部分人會往研究方向發展,成為重要資料戰略人才。”顏莉萍(Nicole Yan)說。另一方面,大資料工程師對商業和產品的理解,並不亞於業務部門員工,因此也可轉向產品部或市場部,乃至上升為公司的高階管理層。

對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解

想學習的同學歡迎加入大資料學習qq群:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家

並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系 。

在這裡插入圖片描述