前言

Hadoop在大資料技術體系中的地位至關重要,Hadoop是大資料技術的基礎,對Hadoop基礎知識的掌握的紮實程度,會決定在大資料技術道路上走多遠。

這是一篇入門文章,Hadoop的學習方法很多,網上也有很多學習路線圖。本文的思路是:以安裝部署Apache Hadoop2.x版本為主線,來介紹Hadoop2.x的架構組成、各模組協同工作原理、技術細節。安裝不是目的,通過安裝認識Hadoop才是目的。

第一部分:Linux環境安裝

Hadoop是執行在Linux,雖然藉助工具也可以執行在Windows上,但是建議還是執行在Linux系統上,第一部分介紹Linux環境的安裝、配置、Java JDK安裝等。

第二部分:Hadoop本地模式安裝

Hadoop本地模式只是用於本地開發除錯,或者快速安裝體驗Hadoop,這部分做簡單的介紹。

第三部分:Hadoop偽分散式模式安裝

學習Hadoop一般是在偽分散式模式下進行。這種模式是在一臺機器上各個程序上執行Hadoop的各個模組,偽分散式的意思是雖然各個模組是在各個程序上分開執行的,但是隻是執行在一個作業系統上的,並不是真正的分散式。

第四部分:完全分散式安裝

完全分散式模式才是生產環境採用的模式,Hadoop執行在伺服器叢集上,生產環境一般都會做HA,以實現高可用。