1. 程式人生 > >大資料方向,適合初學者的書籍

大資料方向,適合初學者的書籍

人們想開始學習大資料的時候,最常問我的問題是,“我應該學Hadoop(hadoop是一款開源軟體,主要用於分散式儲存和計算,他由HDFS和MapReduce計算框架組成的,他們分別是Google的GFS和MapReduce的開源實現。由於hadoop的易用性和可擴充套件性,因此成為最近流行的海量資料處理框架。hadoop這個單詞來源於其發明者的兒子為一個玩具大象起的名字。), 分散式計算,Kafka(Kafka是由LinkedIn開發的一個分散式基於釋出/訂閱的訊息系統),NoSQL(泛指非關係型的資料庫)還是Spark(Spark 是一種與 Hadoop 相似的開源叢集計算環境,但是兩者之間還存在一些不同之處)?”

推薦一個大資料學習群 142973723每天晚上20:10都有一節【免費的】大資料直播課程,專注大資料分析方法,大資料程式設計,大資料倉庫,大資料案例,人工智慧,資料探勘都是純乾貨分享,

  而我通常只有一個答案:“這取決於你究竟想做什麼。”

  因此,讓我們用一種有條理的方式來解決這個問題。我們將一步步地探索這條學習之路。

   在大資料行業有哪些職業需求?

  在大資料行業中有很多領域。通常來說它們可以被分為兩類:

  • 大資料工程

  • 大資料分析

  這些領域互相獨立又互相關聯。

  大資料工程涉及大量資料的設計,部署,獲取以及維護(儲存)。大資料工程師需要去設計和部署這樣一個系統,使相關資料能面向不同的消費者及內部應用。

  而大資料分析的工作則是利用大資料工程師設計的系統所提供的大量資料。大資料分析包括趨勢、圖樣分析以及開發不同的分類、預測預報系統。

  因此,簡而言之,大資料分析是對資料的高階計算。而大資料工程則是進行系統設計、部署以及計算執行平臺的頂層構建。

  你的領域是什麼,適合什麼方向?

  現在我們已經瞭解了行業中可供選擇的職業種類,讓我們想辦法來確定哪個領域適合你。這樣,我們才能確定你在這個行業中的位置。

學習大資料開發需要一個系統的過程,對於零基礎的人可以按照以下學習路線學習大資料開發:

第一,學習Linux系列作業系統。Linux作業系統是做大資料開發的基礎,大部分大資料平臺包括Hadoop都是基於Linux作業系統的,所以首先要掌握Linux作業系統的使用。

第二,學習程式語言。大資料開發可以使用Java、Python、Scala、R等語言,其中Python使用的比較多,在Spark平臺下Scala語言使用的比較常見。雖然Java語言給大家的感覺有點偏“重”,但是大部分大資料平臺都支援Java語言。

第三,學習大資料平臺的搭建和部署。大資料開發要基於大資料平臺,所以搭建大資料平臺是一定要熟練掌握的,目前大部分大資料平臺都是基於Hadoop和Spark搭建的(包括商用大資料平臺),所以要掌握如何搭建Hadoop和Spark平臺。

第四,學習並掌握常見的大資料演算法。大資料開發一個重點內容是做演算法實現,所以掌握常見的大資料演算法是非常有必要的。

以上內容是進行大資料開發的基礎,一定要熟練掌握。另外,紮實的數學基礎能使開發者走的更遠。學習大資料是一個漫長的過程,由於大資料涉及到的內容非常多,所以建議通過案例來進行學習,這樣效果會更好一些。