用Docker在一臺膝上型電腦上搭建一個具有10個節點7種角色的Hadoop叢集(下)-搭建Hadoop叢集
上篇介紹了快速上手Docker部分,下面接著介紹搭建Hadoop叢集部分。
六、搭建Hadoop偽分佈模式
我們先用前面建立的這個容器來搭建Hadoop偽分佈模式做測試,測試成功後再搭建完全分散式叢集。
1.SSH
這個centos容器可以看做是一個非常精簡的系統,很多功能沒有,需要自己安裝。
Hadoop需要SSH,但容器沒有自帶,需要我們安裝。
①安裝SSH
# yum -y install openssh-clients openssh-server
②生成3個key檔案
# ssh-keygen -t rsa -f /etc/ssh/ssh_host_rsa_key
一路回車
# ssh-keygen -t ecdsa -f /etc/ssh/ssh_host_ecdsa_key 一路回車
# ssh-keygen -t ed25519 -f /etc/ssh/ssh_host_ed25519_key 一路回車
③啟動sshd
# /usr/sbin/sshd
④修改root密碼
因為預設的密碼不知道,我們重新設定一下。
# passwd root
⑤設定ssh免密登入到本機
# ssh-keygen
一路回車
# ssh-copy-id localhost 輸入密碼
# ssh localhost
免密登入成功
# exit
退回到剛才的shell中。
2.which
執行hadoop需要which命令,同樣容器沒有自帶,需要我們安裝。
# yum -y install which
3.檔案複製
下面我們將已經提前準備好的JDK和Hadoop從宿主機上覆制到容器中。注意,複製操作要在Docker宿主機上進行。
$ docker cp /home/chengyujia/jdk1.7.0_80/ pseudo-distributed:/root/ $ docker cp /home/chengyujia/hadoop-2.7.3/ pseudo-distributed:/root/
在容器中可以看到JDK和Hadoop已複製到位。
4.配置環境變數並在容器啟動時啟動sshd
在/etc/profile.d中新建一個run.sh檔案
在run.sh檔案中寫入下面6行內容:
export JAVA_HOME=/root/jdk1.7.0_80 export PATH=$PATH:$JAVA_HOME/bin export HADOOP_HOME=/root/hadoop-2.7.3 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop /usr/sbin/sshd
用exit命令退出容器,重新啟動並進入容器,上面配置的環境變數會生效,sshd也會啟動。
5.hadoop偽分散式配置
①配置hadoop-env.sh
將export JAVA_HOME=${JAVA_HOME}中的${JAVA_HOME}替換為具體路徑,這裡為export JAVA_HOME=/root/jdk1.7.0_80。
②配置core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
③配置hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
④配置mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
⑤配置yarn-site.xml
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
6.啟動偽分佈叢集並執行wordcount示例程式
①準備測試資料
新建一個input資料夾,在這個資料夾中新建一個test.txt檔案,裡面隨便寫點單詞,然後將該檔案多複製幾份,我這裡複製了5份。
②格式化namenode
# hdfs namenode -format
③啟動HDFS
# start-dfs.sh
④啟動YARN
# start-yarn.sh
⑤檢視相關程序是否都啟動
# jps
如有以下5個程序,說明啟動成功。
DataNode
NodeManager
NameNode
SecondaryNameNode
ResourceManager
⑥將測試資料複製到HDFS中
# hdfs dfs -put /root/input /
⑦執行wordcount示例程式
# hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /input /output
⑧檢視輸出結果
# hdfs dfs -cat /output/part-r-00000
從截圖可以看出輸出正確。偽分散式測試完畢。
七、搭建Hadoop完全分散式叢集
1.叢集規劃
1個NameNode節點 1個SecondaryNameNode節點 1個ResourceManager節點 1個JobHistory節點 5個Slave節點 1個Client節點
其中Slave節點包含DataNode和NodeManager兩種角色。
Client節點是用來操作的節點,所有操作都儘量在這個節點上進行。
以上共10個節點,7種角色。
2.將上面的偽分散式容器打包成映象
理論上,我們只要將上面的偽分散式容器複製10份,然後改改配置檔案就行了。但是Docker容器不能直接複製,需要先打包成映象,然後用這個映象生成10個新的容器。
命令如下:
$ docker commit -a "成宇佳" -m "Hadoop在centos上搭建的偽分佈模式。" pseudo-distributed hadoop-centos:v1
-a 表示作者。
-m 表示對該映象的說明。
pseudo-distributed 被打包容器的名稱
hadoop-centos:v1 生成映象的名稱及版本
需要知道的是,因為這個被打包的容器是通過centos映象建立的,所以由該容器打包成的新映象也包含了centos映象。
3.建立網路
$ docker network create hadoop_nw
這裡新建了一個叫hadoop_nw的網路,後面將10個Hadoop節點容器都加入到該網路,就能相互間通訊了。而且不需要配置hosts檔案,直接通過容器名稱即可訪問。
$ docker network ls
通過該命令可以檢視所有的網路,除了我們剛建立的hadoop_nw網路,其它都是安裝Docker時自動生成的,在本文中不用管它們。
4.用新生成的映象建立10個容器
$ docker run -itd --network hadoop_nw -h namenode --name namenode -p 50070:50070 hadoop-centos:v1 $ docker run -itd --network hadoop_nw -h secondarynamenode --name secondarynamenode hadoop-centos:v1 $ docker run -itd --network hadoop_nw -h resourcemanager --name resourcemanager -p 8088:8088 hadoop-centos:v1 $ docker run -itd --network hadoop_nw -h jobhistory --name jobhistory -p 19888:19888 hadoop-centos:v1 $ docker run -itd --network hadoop_nw -h slave1 --name slave1 hadoop-centos:v1 $ docker run -itd --network hadoop_nw -h slave2 --name slave2 hadoop-centos:v1 $ docker run -itd --network hadoop_nw -h slave3 --name slave3 hadoop-centos:v1 $ docker run -itd --network hadoop_nw -h slave4 --name slave4 hadoop-centos:v1 $ docker run -itd --network hadoop_nw -h slave5 --name slave5 hadoop-centos:v1 $ docker run -itd --network hadoop_nw -h client --name client hadoop-centos:v1
-itd 表示開啟終端但不進入
--network 表示加入到哪個網路
-p 表示埠對映
從上面可以看到namenode、resourcemanager和jobhistory這3個節點做了埠對映。埠對映的作用是將Docker宿主機的某個埠對映到容器的某個埠上,這樣我們通過訪問Docker宿主機的這個埠就能間接訪問到相應的容器埠了。就像從外網訪問內網中的某臺機器一樣。我們在後面通過瀏覽器檢視叢集資訊的時候會用到。
5.修改Hadoop配置檔案
我們在client節點修改,然後複製到其它節點。
①配置core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://namenode:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/root/hadoop-2.7.3/data</value> </property> </configuration>
②配置hdfs-site.xml
<configuration> <property> <name>dfs.namenode.secondary.http-address</name> <value>secondarynamenode:50090</value> </property> </configuration>
③配置mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>jobhistory:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>jobhistory:19888</value> </property> </configuration>
④配置yarn-site.xml
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>resourcemanager</value> </property> </configuration>
⑤配置slaves檔案
slave1
slave2
slave3
slave4
slave5
6.配置節點間SSH免密登入
在client節點執行:
# ssh-copy-id namenode # ssh-copy-id secondarynamenode # ssh-copy-id resourcemanager # ssh-copy-id jobhistory # ssh-copy-id slave1 # ssh-copy-id slave2 # ssh-copy-id slave3 # ssh-copy-id slave4 # ssh-copy-id slave5
在resourcemanager節點執行:
# ssh-copy-id slave1 # ssh-copy-id slave2 # ssh-copy-id slave3 # ssh-copy-id slave4 # ssh-copy-id slave5
7.複製配置檔案到所有節點
在client節點執行:
# scp -r $HADOOP_HOME/etc/hadoop namenode:$HADOOP_HOME/etc # scp -r $HADOOP_HOME/etc/hadoop secondarynamenode:$HADOOP_HOME/etc # scp -r $HADOOP_HOME/etc/hadoop resourcemanager:$HADOOP_HOME/etc # scp -r $HADOOP_HOME/etc/hadoop jobhistory:$HADOOP_HOME/etc # scp -r $HADOOP_HOME/etc/hadoop slave1:$HADOOP_HOME/etc # scp -r $HADOOP_HOME/etc/hadoop slave2:$HADOOP_HOME/etc # scp -r $HADOOP_HOME/etc/hadoop slave3:$HADOOP_HOME/etc # scp -r $HADOOP_HOME/etc/hadoop slave4:$HADOOP_HOME/etc # scp -r $HADOOP_HOME/etc/hadoop slave5:$HADOOP_HOME/etc
8.啟動Hadoop叢集
在client節點執行:
①格式化namenode
# ssh namenode "hdfs namenode -format"
②啟動HDFS叢集
# start-dfs.sh
③啟動YARN叢集
# ssh resourcemanager "start-yarn.sh"
④啟動JobHistory
# ssh jobhistory "mr-jobhistory-daemon.sh --config $HADOOP_CONF_DIR start historyserver"
9.在瀏覽器中檢視叢集資訊
由於指定過相應容器的埠對映,我在我的Windows上用瀏覽器訪問Docker宿主機相應的埠就能訪問到容器。
HDFS http://Docker宿主機IP:50070/ YARN http://Docker宿主機IP:8088/ jobhistory http://Docker宿主機IP:19888/
從web上可以看到叢集正常:
10.執行wordcount示例程式
①將測試資料複製到HDFS中
# hdfs dfs -put /root/input /
②執行wordcount示例程式
# hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /input /output
③檢視輸出結果
# hdfs dfs -cat /output/part-r-00000
從截圖可以看到輸出結果正確。完全分散式叢集搭建完畢。