1. 程式人生 > >學習大資料開發應該瞭解的幾個技能

學習大資料開發應該瞭解的幾個技能

1、Linux

大資料叢集主要建立在linux作業系統上,Linux是一套免費使用和自由傳播的類Unix作業系統。而這部分的內容是大家在學習大資料中必須要學習的,只有學好Linux才能在工作中更加的得心應手。

2、Hadoop

我覺的大家聽過大資料就一定會聽過hadoop。Hadoop是一個能夠對大量資料進行離線分散式處理的軟體框架,運算時利用mapreduce對資料進行處理。在大資料中的用途,以及快速搭建一個hadoop的實驗環境,在本過程中不僅將用到前面的Linux知識,而且會對hadoop的架構有深入的理解,併為你以後架構大資料專案打下堅實基礎。

3、HDFS系統

HDFS是建立在多臺節點上的分散式檔案系統,使用者可以通過hdfs命令來操作分散式檔案系統。學習這部分內容是可以幫助大家詳細剖析HDFS,從知曉原理到開發網盤的專案讓大家打好學習大資料的基礎,大資料之於分散式,分散式學習從學習分散式檔案系統(HDFS)開始。

4、Hive

Hive是使用sql進行計算的hadoop框架,工作中常用到的部分,也是面試的重點,此部分大家將從方方面面來學習Hive的應用,任何細節都將給大家涉及到。

5、Storm實時資料處理

本部分學習過後,大家將全面掌握Storm內部機制和原理,通過大量專案實戰,讓大家擁有完整專案開發思路和架構設計,掌握從資料採集到實時計算到資料儲存再到前臺展示,所有工作一個人搞定!譬如可以一個人搞定淘寶雙11大螢幕專案!不光從專案的開發的層次去實現,並可以從架構的層次站在架構師的角度去完成一個專案。

6、spark

大資料開發中最重要的部分!本部分內容的學習主要是涵蓋了Spark生態系統的概述及其程式設計模型,深入核心的研究,Spark on Yarn,Spark Streaming流式計算原理與實踐,Spark SQL,Spark的多語言程式設計以及SparkR的原理和執行。不僅面向專案開發人員,甚至對於研究Spark的學員,此部分都是非常有學習指引意義的部分。

7、Docker技術

Docker 是一個開源的應用容器引擎,讓開發者可以打包他們的應用以及依賴包到一個可移植的容器中,然後釋出到任何流行的 Linux 機器上,也可以實現虛擬化。容器是完全使用沙箱機制,相互之間不會有任何介面(類似 iPhone 的 app)。幾乎沒有效能開銷,可以很容易地在機器和資料中心中執行。重要的是,他們不依賴於任何語言、框架包括系統。

以上知識點為籠統的總結,具體的學習思路可以找我獲取!!!

當然除了這些知識點外還包括:redis、zookeeper、scala等等的,總之學習不可能一口吃個胖子。需要不斷的積累總結,找到合適的學習資料和方法。

小編也為大家提供了全套知識點的學習資料(視訊+筆記+原始碼+PDF),大家需要的可以加群討論學習領取【212394787】