1. 程式人生 > >大資料開發是先學習Hadoop還是spark,看10萬程式猿所留下的結論

大資料開發是先學習Hadoop還是spark,看10萬程式猿所留下的結論

首先,我先申明:任何以『做大資料好像掙得多』為名學習資料科學相關的內容都是不謹慎,而且難以有回報的。而且,任何『只要學會一兩種工具就能做大資料』的想法也都是盲目的,難有成效的。

從目前我遇到過的面試者和看過的簡歷來看,凡是沒有過大資料專案經驗的人,簡歷寫出花來都是扯淡。部署一個叢集,裝一個Hive,HBase什麼的根本就不叫大資料(有的公司甚至部署Hadoop只用HDFS,每天處理5GB資料,這是我面過的一個人告訴我的他的工作經驗)。一次處理1個TB以下的資料都不叫大資料(我還在權衡,是不是要提高這個量級)。

大資料是建立在資料科學基礎上的,對程式設計、演算法,分散式計算、統計學,線性代數,機器學習,系統構架都有比較高的要求。而且要看英文就像看中文一樣(這條很重要,我一般對於不積極主動看英文資料的人沒有什麼太大的期待)。

我的建議是不要管什麼Hadoop,Spark。把基礎打牢,只要程式設計技巧和演算法精通,能看英文文獻,順便學點概率統計,隨便去哪個公司都能應聘大資料的崗位,等有了專案環境,上手Hadoop或者Spark還不是分分鐘的事~

分享之前我還是要推薦下我自己建立的大資料學習資料分享群 232840209,這是全國最大的大資料學習交流的地方,2000人聚集,不管你是小白還是大牛,小編我都挺歡迎,今天的原始碼已經上傳到群檔案,不定期分享乾貨,包括我自己整理的一份最新的適合2017年學習的前端資料和零基礎入門教程,歡迎初學和進階中的小夥伴。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

0?wx_fmt=jpeg

0?wx_fmt=jpeg

關於大資料的含義前面也有人說了,你想學的是技術層面的話,你所列出的兩個程式設計工具並不存在過多需要糾結的地方,有位高手告訴我,它們都是資料分佈運算的一種中間環節和處理過程。

我倒是認為大資料處理和分析中更重要的是和各行業相結合的分析思路和方法,也就是特定場景下的資料分析,這需要你找準自己喜歡並願意作為事業的方向,比如,選擇金融資料分析,健康資料分析等,在這些領域裡你的知識有多廣,決定了你為未來有多高。

大資料的發展之路還有很多年,你還有時間,加油!

0?wx_fmt=gif