1. 程式人生 > >零基礎大資料入門必備

零基礎大資料入門必備

大資料是眼下非常時髦的技術名詞,與此同時自然也催生出了一些與大資料處理相關的職業,通過對資料的挖掘分析來影響企業的商業決策。

這群人在國外被叫做資料科學家(Data

Scientist),這個頭銜最早由D.J.Pati和Jeff

Hammerbacher於2008年提出,他們後來分別成為了領英(LinkedIn)和Facebook資料科學團隊的負責人。而資料科學家這個職位目前也已經在美國傳統的電信、零售、金融、製造、物流、醫療、教育等行業裡開始創造價值。

不過在國內,大資料的應用才剛剛萌芽,人才市場還不那麼成熟,“你很難期望有一個全才來完成整個鏈條上的所有環節。更多公司會根據自己已有的資源和短板,招聘能和現有團隊互補的人才。”領英(LinkedIn)中國商務分析及戰略總監王昱堯對《第一財經週刊》說。

於是每家公司對大資料工作的要求不盡相同:有的強調資料庫程式設計、有的突出應用數學和統計學知識、有的則要求有諮詢公司或投行相關的經驗、有些是希望能找到懂得產品和市場的應用型人才。正因為如此,很多公司會針對自己的業務型別和團隊分工,給這群與大資料打交道的人一些新的頭銜和定義:資料探勘工程師、大資料專家、資料研究員、使用者分析專家等都是經常在國內公司裡出現的Title,我們將其統稱為“大資料工程師”。

我們身處一個“技術爆炸”和“共享、開源”的時代,先進技術的更新迭代速率超過了歷史上任何一個時期,而且這些技術也不再閉塞,人人都可以接觸並學習。終身學習已經是我們每個人不得不面對的問題,這一點在大資料/人工智慧領域體現的尤為明顯:層出不窮的新技術,一方面為我們帶來了便利,但同時也使我們面臨難以高效學習和選擇的窘境。因此,在這樣的時代背景下學習大資料知識,需要有相適應的邏輯和方法。

本文試圖幫助各位讀者用好各類“共享、開源”的學習工具以及學習渠道,躲過各類新手容易誤入的“深坑”,以最小時間成本和經濟成本,優質地完成目標技術的學習和掌握。

本文首先分析了時代背景,繼而對目前大資料領域的人才梯隊進行了劃分,最後給出了大資料/人工智慧人才從菜鳥到高手的進階指南。

在這裡相信有許多想要學習大資料的同學,大家可以+下大資料學習裙: 805127855,即可免費領取一整套系統的大資料學習教程

一、背景鋪墊

“技術爆炸”以及“共享開源”是這個時代最有特色的標籤,筆者認為二者是互為因果且緊密聯絡的,首先在“技術爆炸”的時代,對於走在技術發展最前沿的研究團隊來說,“技術變現”的最好手段就是“共享開源”。反觀網際網路、移動互聯發展成熟之前,資訊是十分閉塞的,某項技術創新一旦出現就需要第一時間註冊專利,技術需要靠政府來保護,而技術變現的唯一途徑就是出賣專利或者組織生產形成產品。

現如今網際網路及移動互聯已經發展的十分成熟,新的資訊會以極低的成本在極短的時間內傳遍世界的每個角落,所以處在技術前沿的研究團隊僅需要在第一時間將自己的工作成果上傳到“arxiv”或者“github”之類中立的共享、開源網站,便會立即得到全球輿論的共同保護,這樣的力度要遠遠強於某個國家的專利保護。

隨後,只要新技術確有應用價值或者學術價值,那麼各類資本巨頭、科技大鱷以及相關的各類組織便會排著隊上門送出豐厚的offer,對於前沿團隊來說,技術變現的時間點要遠遠早於技術產品化的時間點。

其次,因為“技術爆炸”總有新的技術等待著前沿團隊去研究發現,所以前沿團隊保持領先的最好方法不是捂著現有成果不放,而是儘快“共享開源”實現變現,然後投入到新的研究工作中。

最後,“共享開源”也在很大程度上促進了“技術爆炸”,無論任何技術、科技的長足發展都需要一個龐大人才體系來支撐,反觀歷史上的各個時期,分享知識、培養人才的渠道主要是“學校”,這一渠道不但形式單一而且往往具備相當的門檻,會將相當一部分“有志青年”擋在門外。


而在如今這個時代,知識傳播最快速的渠道是網際網路,由於“共享開源”,世界上最優質的教育資源以及最先進的學術、技術理念忽然間沒有了任何門檻,面向全部個體無差別開放,結果就是隻要某一技術、科技領域有了很大的突破並具備廣闊的應用前景(如大資料、人工智慧),那麼相應的人才梯隊會在短時間內自動補齊跟上。

站在大資料學術前沿的研究團隊只需要一往無前地開拓疆域,其後的人才梯隊隨即會自動開展“新技術論證”及“技術產品化”等“保障”工作,保障這一技術領域及相關行業的健康發展,來進一步促進資源向金字塔尖的前沿團隊匯聚,支撐其開拓工作。

大資料(巨量資料集合)是現代社會非常時髦的一個名詞。是資料科學的一個高階狀態。資料科學並沒有一個獨立的學科體系,統計學,機器學習,資料探勘,資料庫,分散式計算,雲端計算,資訊視覺化等技術或方法來對付資料。催生出了一些與大資料相關的職業,通過對資料的分析挖掘來影響企業的商業決策。

國內,大資料的應用處於萌芽狀態,人才市場還不太成熟,每家公司對大資料工作的要求不盡相同:有的強調資料庫程式設計、有的突出應用數學和統計學知識、有的則要求有諮詢公司相關的經驗、有些是希望能找到懂得產品和市場的應用型人才。正因為如此,很多公司會針對自己的業務型別和團隊分工,給這群與大資料打交道的人一些新的頭銜和定義:資料探勘工程師、大資料專家、資料研究員、使用者分析專家等都是經常在國內公司裡出現的Title,我們將其統稱為"大資料工程師"。

對於一些大公司來說,擁有碩博學歷的人是比較好的選擇,不過阿里巴巴集團研究員薛貴榮強調,學歷並不是最主要的因素,能有大規模處理資料的經驗並且有喜歡在資料海洋中尋寶的好奇心會更適合這個工作。想了解更多程式設計方面的分享請關注薇信工宗號:程式設計師大牛,裡面也有分享這方面的文章和乾貨資料。

找對好基友,連滾帶爬往前走

現在已經不是一個單打獨鬥,憑著跌落斷崖後找到一本祕籍閉關幾年就能橫掃天下的時代了,無論是像Hinton(推翻了BP演算法的BP演算法之父)這樣的泰斗,還是像何凱明(發best paper像一般人發paper一樣容易的神奇學霸)這樣的新秀,都處在各自非常靠譜的團隊中與小夥伴們共同探索。好基友不需要多,有一兩個真正靠譜的就已經足夠,至於隊友的重要性後文會慢慢闡釋。

菜鳥築基這部分最後要給出的建議就是,千萬不要在這個階段停留太久,不要等“準備好了”再去著手實踐,因為這裡的“準備好了”往往包含菜鳥的不自信,不去進一步提升自己是永遠準備不“好”的。一般情況下,想做“計算機視覺”或者“自然語言處理”等偏AI方向的同學在完成吳恩達的《深度學習》課程後,想做“資料探勘”的同學在完成吳恩達的《機器學習》課程後,就可以選擇相應的實踐專案準備進入下一階段了。


那麼我們該選擇什麼實踐手段呢?最佳的情況是有大神帶隊做真實專案,但是這樣的機會往往可遇而不可求,在此不展開討論。普羅大眾型的辦法是參加一個大資料比賽專案,現在國內的“阿里天池”以及國外的“Kaggle”都是開放式的大資料比賽平臺,平臺上會有各種組織釋出的各類真實專案供大家實踐、比賽。讀到這裡各位心裡可能還存有很大的疑問:“就算學會了基本課程,在沒有人帶的情況下能上手實踐嗎?”,下文將陸續回答如何“連滾帶爬”的進行實踐。

初入江湖

 找到一個最高的baseline

這裡的“baseline”可以理解為前人已經做出成果,當自己恰好需要去做相同工作時的參照。對於上文提到的情況,如果有大神帶隊進行實踐的話,那麼帶隊大神此前的實踐經驗就成為了全體小隊成員的“baseline”。那對於沒有“大神”資源的廣大讀者是否有更通用的解決辦法呢?答案是肯定的。如果讀者目前對於一類問題無從下手,例如剛剛學完“深度學習”的課程,但是不知道如何去做“自然語言處理”類的專案,最好的辦法是利用好國內的“萬方”以及“知網”這樣的論文查詢平臺,去查詢相關領域國內普通高校的學位論文,這樣的論文絕大部分都是中文並且會在論文中介紹大量的基礎背景知識,正好滿足了我們的需求。

有那麼一句成功學的佳句是“每天叫醒我的不是鬧鐘而是夢想”,這句話聽起來很勵志,但對於90%的人來說就是胡扯,我們回首望去發現每天叫醒我們的往往是“上班遲到後被扣的工資”或者是“晚到實驗室後老闆的殺氣”,這就是現實,聽起來很殘酷但是我們完全可以利用好它。具體到我們的升級以及專案推進中,能讓我們不斷向前的最大動力往往是“在DDL前無法完成任務後小夥伴們的鄙視”以及“完成quick win後帶來的成就感”。

做好這一點除了上一小節提到的要合理劃分任務之外,最重要的就是有一個靠譜的teamleader不斷的進行推進(push),每到既定節點後雷打不動的推進。最後要囉嗦一句,根據馬斯洛需求層次理論,夢想應該屬於模型頂層的“自我實現需求”,如果一個人可以被“夢想”叫醒,那麼這個人的其他需求應該已經被很好的滿足了,所以我在這裡真誠的祝福大家終有一天可以在早晨被自己的“夢想”叫醒。

如何成為大資料工程師

由於目前大資料人才匱乏,對於公司來說,很難招聘到合適的人才—既要有高學歷,同時最好還有大規模資料處理經驗。因此很多企業會通過內部挖掘。

今年8月,阿里巴巴舉辦了一個大資料競賽,把天貓平臺上的資料拿出來,去除敏感問題後,放到雲端計算平臺上交予7000多支隊伍進行比賽,比賽分為內部賽和外部賽。“通過這個方式來激勵內部員工,同時也發現外部人才,讓各行業的大資料工程師湧現出來。”

顏莉萍建議,目前長期從事資料庫管理、挖掘、程式設計工作的人,包括傳統的量化分析師、Hadoop方面的工程師,以及任何在工作中需要通過資料來進行判斷決策的管理者,比如某些領域的運營經理等,都可以嘗試該職位,而各個領域的達人只要學會運用資料,也可以成為大資料工程師。

薪酬待遇

作為IT類職業中的“大熊貓”,大資料工程師的收入待遇可以說達到了同類的頂級。根據顏莉萍的觀察,國內IT、通訊、行業招聘中,有10%都是和大資料相關的,且比例還在上升。顏莉萍表示,“大資料時代的到來很突然,在國內發展勢頭激進,而人才卻非常有限,現在完全是供不應求的狀況。”在美國,大資料工程師平均每年薪酬高達17.5萬美元,而據瞭解,在國內頂尖網際網路類公司,同一個級別大資料工程師的薪酬可能要比其他職位高20%至30%,且頗受企業重視。

職業發展路徑

由於大資料人才數量較少,因此大多數公司的資料部門一般都是扁平化的層級模式,大致分為資料分析師、資深研究員、部門總監3個級別。大公司可能按照應用領域的維度來劃分不同團隊,而在小公司則需要身兼數職。有些特別強調大資料戰略的網際網路公司則會另設最高職位—如阿里巴巴的首席資料官。“這個職位的大部分人會往研究方向發展,成為重要資料戰略人才。”顏莉萍說。另一方面,大資料工程師對商業和產品的理解,並不亞於業務部門員工,因此也可轉向產品部或市場部,乃至上升為公司的高階管理層。

另外,大資料初學者有什麼不懂的可以關注微信公眾號:程式設計師交流互動平臺和轉發——我剛整理了一份大資料2018最新的0基礎入門和進階教程,無私分享