1. 程式人生 > >CDH版本Hadoop叢集環境搭建詳解

CDH版本Hadoop叢集環境搭建詳解

1、CDH版本hadoop重新編譯

1.1 為什麼要編譯?

由於cdh給出的hadoop的安裝包並沒有提供帶C程式訪問的介面,所以我們在使用本地庫(本地庫可以用來做壓縮,以及支援C程式等等)的時候就會出問題,所以一般需要自己重新編譯。

1.2 編譯環境的準備

Linux:推薦記憶體4G或以上,64位作業系統,聯網,關閉防火牆。
jdk1.7安裝:並在/etc/profile中配置環境變數,編譯這裡選擇jdk1.7。
maven安裝:編譯需要在maven環境下進行。配置maven環境變數。
maven倉庫:為增加編譯速度,可以提前下載maven倉庫,並在maven配置檔案中指定本地倉庫路徑,同時新增阿里雲映象地址。
findbugs

:下載解壓並配置環境變數。
依賴包:線上安裝一些依賴包。

yum -y install autoconf automake libtool cmake
yum -y install ncurses-devel
yum -y install openssl-devel
yum -y install lzo-devel zlib-devel gcc gcc-c++
yum -y install -y  bzip2-devel

安裝protobuf :解壓並編譯。
安裝snappy :下載地址 http://code.google.com/p/snappy/ ,解壓並編譯。
cdh原始碼準備:原始碼下載地址為:

http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.14.0-src.tar.gz    

1.3 進行編譯

進入解壓的cdh原始碼目錄中,

cd  /export/servers/hadoop-2.6.0-cdh5.14.0

支援snappy壓縮方式編譯:

mvn package -DskipTests -Pdist,native -Dtar -Drequire.snappy -e –X

編譯成功後,進入該目錄檢視編譯之後得到的檔案:

cd  /export/servers/hadoop-2.6.0-cdh5.14.0/hadoop-dist/target

注意:所有環境變數配置完成後應執行命令使其立即生效。可通過source命令。

source /etc/profile

2、CDH版本的zookeeper環境搭建

叢集環境以三臺虛擬機器為例,分別命名為node01,node02,node03。
每臺應提前安裝jdk1.8並配置環境變數。
其他相關虛擬機器安裝配置可以參考其他文件。

2.1 zookeeper下載解壓

下載地址為:

http://archive.cloudera.com/cdh5/cdh/5/

選擇和編譯的CDH相同的版本,這裡為CDH5.14.0

2.2 修改配置檔案

建立zk資料存放目錄

mkdir -p /export/servers/zookeeper-3.4.5-cdh5.14.0/zkdatas

修改zk配置檔案

cd /export/servers/zookeeper-3.4.5-cdh5.14.0/conf 
cp zoo_sample.cfg zoo.cfg
vim  zoo.cfg

修改zoo.cfg中的內容:

dataDir=/export/servers/zookeeper-3.4.5-cdh5.14.0/zkdatas
autopurge.snapRetainCount=3
autopurge.purgeInterval=1
server.1=node01:2888:3888
server.2=node02:2888:3888
server.3=node03:2888:3888

在zkdatas中建立myid檔案並寫入內容:

echo 1 > /export/servers/zookeeper-3.4.5-cdh5.14.0/zkdatas/myid

將安裝包分發到其他機器,並需要修改其他機器的myid.myid是zookeeper選取leader的重要資訊。
可修改node02的myid為2,修改node03的myid為3.

2.3啟動zk服務

三臺機器均執行以下命令:

cd  /export/servers/zookeeper-3.4.5-cdh5.14.0
bin/zkServer.sh start

3、CDH偽分散式環境搭建

安裝環境服務部署規劃,這裡:
192.168.52.100為node01
192.168.52.110為node02
192.168.52.120為node03

伺服器IP 192.168.52.100 192.168.52.110 192.168.52.120
HDFS NameNode
HDFS SecondaryNameNode
HDFS DataNode DataNode DataNode
YARN ResourceManager
YARN NodeManager NodeManager NodeManager
MapReduce JobHistoryServer

3.1 上傳壓縮包並解壓

將我們重新編譯之後支援snappy壓縮的hadoop包上傳到第一臺伺服器(指我的node01伺服器,下同)並解壓
第一臺機器執行以下命令

cd /export/softwares/
tar -zxvf hadoop-2.6.0-cdh5.14.0.tar.gz -C ../servers/

3.2 檢視hadoop支援的壓縮方式以及本地庫

第一臺機器執行以下命令

cd /export/servers/hadoop-2.6.0-cdh5.14.0
bin/hadoop checknative

如果出現openssl為false,那麼所有機器線上安裝openssl即可

yum -y install openssl-devel

3.3 修改配置檔案

建議可以通過nodepad++進行連線伺服器,然後進行編寫修改配置檔案,以避免vim模式下可能出現的拼寫錯誤。

第一臺機器執行以下命令
----1 修改core-site.xml

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim core-site.xml

更改文件資訊:

<configuration>
	<property>
		<name>fs.default.name</name>
		<value>hdfs://192.168.52.100:8020</value>
	</property>
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/tempDatas</value>
	</property>
	<!--  緩衝區大小,實際工作中根據伺服器效能動態調整 -->
	<property>
		<name>io.file.buffer.size</name>
		<value>4096</value>
	</property>

	<!--  開啟hdfs的垃圾桶機制,刪除掉的資料可以從垃圾桶中回收,單位分鐘 -->
	<property>
		<name>fs.trash.interval</name>
		<value>10080</value>
	</property>
</configuration>

----2 修改hdfs-site.xml

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim hdfs-site.xml

更改文件資訊:

   <configuration>
	 <property>
			<name>dfs.namenode.secondary.http-address</name>
			<value>node01:50090</value>
	</property>

	<property>
		<name>dfs.namenode.http-address</name>
		<value>node01:50070</value>
	</property>
	<property>
		<name>dfs.namenode.name.dir</name>
		<value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/namenodeDatas</value>
	</property>
	<!--  定義dataNode資料儲存的節點位置,實際工作中,一般先確定磁碟的掛載目錄,然後多個目錄用,進行分割  -->
	<property>
		<name>dfs.datanode.data.dir</name>
		<value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas</value>
	</property>
	
	<property>
		<name>dfs.namenode.edits.dir</name>
		<value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/edits</value>
	</property>
	<property>
		<name>dfs.namenode.checkpoint.dir</name>
		<value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/snn/name</value>
	</property>
	<property>
		<name>dfs.namenode.checkpoint.edits.dir</name>
		<value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/snn/edits</value>
	</property>
	<property>
		<name>dfs.replication</name>
		<value>3</value>
	</property>
	<property>
		<name>dfs.permissions</name>
		<value>false</value>
	</property>
<property>
		<name>dfs.blocksize</name>
		<value>134217728</value>
	</property>
</configuration>
cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim hadoop-env.sh

更改文件資訊:

export JAVA_HOME=/export/servers/jdk1.8.0_141

----4 修改 mapred-site.xml

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim mapred-site.xml

更改文件資訊:

 <configuration>
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>

	<property>
		<name>mapreduce.job.ubertask.enable</name>
		<value>true</value>
	</property>
	
	<property>
		<name>mapreduce.jobhistory.address</name>
		<value>node01:10020</value>
	</property>

	<property>
		<name>mapreduce.jobhistory.webapp.address</name>
		<value>node01:19888</value>
	</property>
</configuration>

----5 修改yarn-site.xml

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim yarn-site.xml

更改文件資訊:

<configuration>
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>node01</value>
	</property>
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
	
	<property>
		<name>yarn.log-aggregation-enable</name>
		<value>true</value>
	</property>
	<property>
		<name>yarn.log-aggregation.retain-seconds</name>
		<value>604800</value>
	</property>
</configuration>

----6 修改slaves檔案

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim slaves

更改文件資訊:

node01
node02
node03

注意:這裡是所有搭建叢集所用的伺服器主機名。在前期Linux環境安裝時,有對主機名起別名為node01、node02、node03

3.4 建立檔案存放目錄

node01機器上面建立以下目錄

mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/tempDatas
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/namenodeDatas
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas 
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/edits
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/snn/name
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/snn/edits

這些目錄用於後期hadoop 的namenode和datanodes等相關資料的生成存放目錄。
這些目錄在之前配置檔案中均有配置。
叢集初始化時,以及叢集執行過程中的一些檔案均會生成在我們配置的該目錄中。

3.5 安裝包的分發

將第一臺安裝的hadoop安裝包複製到其他機器

cd /export/servers/
scp -r hadoop-2.6.0-cdh5.14.0/ node02:$PWD
scp -r hadoop-2.6.0-cdh5.14.0/ node03:$PWD

3.6 配置hadoop的環境變數

叢集所有機器都要配置hadoop環境變數。

vim  /etc/profile

新增以下內容:
可直接在java環境變數後面新增:

export HADOOP_HOME=/export/servers/hadoop-2.6.0-cdh5.14.0
export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

使配置檔案立即生效

source /etc/profile

4叢集環境啟動

要啟動 Hadoop 叢集,需要啟動 HDFS 和 YARN 兩個叢集。
注意首次啟動HDFS時,必須對其進行格式化操作。本質上是一些清理和準備工作,因為此時的 HDFS 在物理上還是不存在的。

bin/hadoop namenode –format

該指令會使叢集在hadoopDatas中生成各種相關資訊檔案:如NameNode和DataNode中均會有VERSION檔案,其中包含clusterId,namespaceID,
例如node01中:/export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/namenodeDatas/current
中namenode的VERSION檔案內容如下:

namespaceID=715801864
clusterID=CID-8bdf2026-329e-4439-8016-55226cabfe84
cTime=0
storageType=NAME_NODE
blockpoolID=BP-1994706638-192.168.52.100-1535458650778
layoutVersion=-60

/export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas/current 資料夾中datanode的VERSION檔案格式如下:

storageID=DS-4a271b03-a87d-4069-a9a6-9782bac356c8
clusterID=CID-8bdf2026-329e-4439-8016-55226cabfe84
cTime=0
datanodeUuid=4d86a001-71e7-4d13-8fbd-898619fea804
storageType=DATA_NODE
layoutVersion=-56

注意: 格式化操作應只在叢集環境剛配置完第一次啟動前進行。後續叢集啟動均不用再進行格式化。
如果在第二次及以後啟動叢集前進行格式化,會導致namenode中的clusterID發生改變,此時與DataNode中VERSION檔案的clusterID不一致,會導致DataNode無法正常啟動。

4.1 指令碼一鍵啟動

如果配置了 etc/hadoop/slaves 和 ssh 免密登入,則可以使用程式指令碼啟動所有Hadoop 兩個叢集的相關程序,在主節點所設定的機器上執行即可。

node01節點上執行以下命令啟動叢集:

cd /export/servers/hadoop-2.6.0-cdh5.14.0/
sbin/start-dfs.sh
sbin/start-yarn.sh
sbin/mr-jobhistory-daemon.sh start historyserver

一鍵停止叢集(友情提醒:生產環境下停止叢集要慎重):

sbin/stop-dfs.sh
sbin/stop-yarn.sh
sbin/mr-jobhistory-daemon.sh start historyserver

4.2 單個節點逐一啟動

在主節點上使用以下命令啟動 HDFS NameNode:

hadoop-daemon.sh start namenode 

在每個從節點上使用以下命令啟動 HDFS DataNode:

hadoop-daemon.sh start datanode 

在主節點上使用以下命令啟動 YARN ResourceManager:

yarn-daemon.sh  start resourcemanager 

在每個從節點上使用以下命令啟動 YARN nodemanager:

yarn-daemon.sh start nodemanager 

以上指令碼位於$HADOOP_PREFIX/sbin/目錄中。如果想要停止某個節點上某個角色,只需要把命令中的start 改為stop 即可。

5、瀏覽器檢視啟動頁面

hdfs叢集訪問地址(或者直接輸入node01:50070)

http://192.168.52.100:50070/dfshealth.html#tab-overview  

yarn叢集訪問地址

http://192.168.52.100:8088/cluster

jobhistory訪問地址:

http://192.168.52.100:19888/jobhistory

如對文中有任何疑問,歡迎及時交流。
共同學習,共同進步。