1. 程式人生 > >Hadoop學習(1)

Hadoop學習(1)

分布 ont zookeepe str 過程 pac 穩定版 進行 動態

什麽是Hadoop?

hadoop是Apache 開源發布的分布式系統基礎架構。它實現了分布式文件系統(hadoop Distributed File System,HDFS),分布式系統是運行在多個主機上的軟件系統。HDFS有著高容錯性的特點,能夠保存多個副本,並可以將自動失敗的任務重新分配。Hadoop可以部署在低廉通用的硬件平臺上組成集群,提供熱拔插的方式增加新的節點來向集群中擴展,將任務動態的分配到各節點中,並保證各節點的動態平衡,因此Hadoop具有低成本,高擴展性,高效性,高容錯性的特點。

Hadoop的體系結構

hadoop的核心

HDFS和MapReduce是Hadoop的兩大核心,Hadoop通過HDFS來實現對分布式存儲的底層支持,達到高速並行讀寫與大容量的存儲擴展,通過MapReduce來對分布式並行任務處理程序的支持,保證高速分析處理數據。HDFS又對MapReduce任務處理中提供了對文件操作和存儲的支持。MapReduce在HDFS的基礎上實現了任務的分發,跟蹤,執行等工作,並收集結果,二者相互作用,完成了Hadoop分布式集群的主要任務。

Hadoop的子項目

技術分享圖片

  1. HDFS:分布式文件系統,整個Hadoop的基石
  2. MapReduce/YARN:並行編程模型,YARN為二代的MapReduce。
  3. Hive:建立在Hadoop的數據倉庫,提供類似SQL語言的功能去查詢Hadoop中的數據。
  4. Pig:一個對大型數據集進行分析,評估的平臺,主要作用類似數據庫的存儲過程。
  5. HBase:一個分布式,面向列的數據庫,是一個適用非結構化數據存儲的數據庫。
  6. Zookeeper:一個分布式應用所設計的協調服務,是Hadoop和HBase的重要組件,為分布式應用提供一致性的軟件,提供包括配置維護,域名服務,組服務等,減輕分布式應用所承擔的協調任務。
  7. Sqoop:主要用於Hadoop與普通數據庫,如MySQL間的數據傳遞。
  8. .......

Hadoop組件遠不止這些,經過這麽多年發展,更多的項目加入Hadoop生態圈,HBase,HDFS,MapReduce為Hadoop的三個重要組件,先習得這三個在深入Hadoop,對於開發來說這三個也是最基本的模塊。

Hadoop版本

Hadoop版本說明
Hadoop 大版本 說明
第二代Hadoop2.0 2.x.x 下一代Hadoop由0.23.x演化而來
0.23.x 下一代Hadoop
第一代Hadoop1.0 1.0.x 穩定版,由0.20.x演化而來
0.22.x 非穩定版本
0.21.x 非穩定版本
0.20.x 經典版本,最後演化為1.0.x

Hadoop學習(1)