1. 程式人生 > >Hadoop如何入門?十年大資料架構師親自整理Hadoop學習方法!

Hadoop如何入門?十年大資料架構師親自整理Hadoop學習方法!

image.png

1、Hadoop生態概況

Hadoop是一個由Apache基金會所開發的分散式系統整合架構,使用者可以在不瞭解分散式底層細節情況下,開發分散式程式,充分利用叢集的威力來進行高速運算與儲存,具有可靠、高效、可伸縮的特點

Hadoop的核心是YARN,HDFS,Mapreduce,常用模組架構如下



網際網路科技發展蓬勃興起,人工智慧時代來臨,抓住下一個風口。為幫助那些往想網際網路方向轉行想學習,卻因為時間不夠,資源不足而放棄的人。我自己整理的一份最新的大資料進階資料和高階開發教程,大資料學習群:868847735   歡迎進階中和進想深入大資料的小夥伴加入。

2、HDFS

源自谷歌的GFS論文,發表於2013年10月,HDFS是GFS的克隆版,HDFS是Hadoop體系中資料儲存管理的基礎,它是一個高度容錯的系統,能檢測和應對硬體故障

HDFS簡化了檔案一致性模型,通過流式資料訪問,提供高吞吐量應用程式資料訪問功能,適合帶有大型資料集的應用程式,它提供了一次寫入多次讀取的機制,資料以塊的形式,同時分佈在叢集不同物理機器

3、Mapreduce

源自於谷歌的MapReduce論文,用以進行大資料量的計算,它遮蔽了分散式計算框架細節,將計算抽象成map和reduce兩部分

4、HBASE(分散式列存資料庫)

源自谷歌的Bigtable論文,是一個建立在HDFS之上,面向列的針對結構化的資料可伸縮,高可靠,高效能分散式和麵向列的動態模式資料庫

5、zookeeper

解決分散式環境下資料管理問題,統一命名,狀態同步,叢集管理,配置同步等

6、HIVE

由Facebook開源,定義了一種類似sql查詢語言,將SQL轉化為mapreduce任務在Hadoop上面執行

7、flume

日誌收集工具

8、yarn分散式資源管理器

是下一代mapreduce,主要解決原始的Hadoop擴充套件性較差,不支援多種計算框架而提出的,架構如下

9、spark

spark提供了一個更快更通用的資料處理平臺,和Hadoop相比,spark可以讓你的程式在記憶體中執行

10、kafka

分散式訊息佇列,主要用於處理活躍的流式資料

11、Hadoop偽分散式部署

目前而言,不收費的Hadoop版本主要有三個,都是國外廠商,分別是

1、Apache原始版本

2、CDH版本,對於國內使用者而言,絕大多數選擇該版本

3、HDP版本

這裡我們選擇CDH版本hadoop-2.6.0-cdh5.8.2.tar.gz,環境是centos7.1,jdk需要1.7.0_55以上 [[email protected] ~]# useraddhadoop