大資料入門（14）hadoop+yarn+zookeeper叢集搭建

阿新 • • 發佈：2018-11-10

1、右鍵clone虛擬機器，進入圖形介面，修改虛擬機器ip即可，相關環境變數配置都存在

2、叢集規劃：（必須設定主機名，配置主機名和ip的對映關係，每個檔案都需要配置對映關係）

   主機名       IP           安裝的軟體                   執行的程序
   weekend01   192.168.1.113       jdk、hadoop               NameNode、DFSZKFailoverController(zkfc)
   weekend02   192.168.1.114       jdk、hadoop               NameNode、DFSZKFailoverController(zkfc)
   weekend03   192.168.1.115       jdk、hadoop               ResourceManager
   weekend04   192.168.1.116       jdk、hadoop               ResourceManager
   weekend05   192.168.1.181       jdk、hadoop、zookeeper     DataNode、NodeManager、JournalNode、QuorumPeerMain
   weekend06   192.168.1.182       jdk、hadoop、zookeeper     DataNode、NodeManager、JournalNode、QuorumPeerMain
   weekend07   192.168.1.183       jdk、hadoop、zookeeper     DataNode、NodeManager、JournalNode、QuorumPeerMain

3、安裝步驟：
   1.安裝配置zooekeeper叢集（在weekend05上）
       1.1上傳解壓檔案
           tar -zxvf zookeeper-3.4.6.tar.gz -C /app
       1.1新增一個zoo.cfg配置檔案（/home/admin/app/zookeeper-3.4.6/conf）
           $ZOOKEEPER/conf
           修改名字：mv zoo_sample.cfg zoo.cfg
       1.2修改配置檔案（zoo.cfg）
           dataDir=/home/admin/app/zookeeper-3.4.6/data
           server.1=192.168.1.181:2888:3888
           server.2=192.168.1.182:2888:3888
           server.3=192.168.1.183:2888:3888
       1.3（dataDir=/home/admin/app/zookeeper-3.4.6/data）在zookeeper-3.4.6/下建立一個data檔案
           mkdir data
           cd data
           echo 1 > myid
           cat myid

裡面內容是server.N中的N（server.2裡面內容為2）   echo 1 > myid
       1.4將配置好的zk拷貝到其他節點(app下)配置zookeeper叢集
           scp -r zookeeper-3.4.6 192.168.1.182:/home/admin/app
           scp -r zookeeper-3.4.6 192.168.1.182:/home/admin/app
       1.5注意：在其他節點上一定要修改myid的內容
           在192.168.1.182應該講myid的內容改為2 （echo 2 > myid）
           在192.168.1.183應該講myid的內容改為3 （echo 3 > myid）
   2.安裝配置hadoop叢集（在weekend01上操作）
       2.1解壓
           tar -zxvf hadoop-2.4.1.tar.gz -C /app
       2.2配置HDFS（hadoop所有的配置檔案都在$HADOOP_HOME/etc/hadoop目錄下）
           #將hadoop新增到環境變數中
           vim /etc/profile
           export JAVA_HOME=/home/admin/app/java/jdk1.7.0_65
           export HADOOP_HOME=/home/admin/app/hadoop-2.4.1
           export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

           #hadoop2.0的配置檔案全部在$HADOOP_HOME/etc/hadoop下
           cd /home/admin/app/hadoop-2.4.1/etc/hadoop

           2.2.1修改hadoo-env.sh
               export JAVA_HOME=/home/admin/app/java/jdk1.7.0_65

           2.2.2修改core-site.xml(配置檔案中不要加註釋，容易亂碼)
               <configuration>
                   
                   <property>
                       <name>fs.defaultFS</name>
                       <value>hdfs://ns1/</value>
                   </property>
                   
                   <property>
                       <name>hadoop.tmp.dir</name>
                       <value>/home/admin/app/hadoop-2.4.1/tmpdata</value>
                   </property>

                   
                   <property>
                       <name>ha.zookeeper.quorum</name>
                       <value>192.168.21.181:2181,192.168.21.182:2181,192.168.21.183:2181</value>
                   </property>
               </configuration>

           2.2.3修改hdfs-site.xml
               <configuration>
                   
                   <property>
                       <name>dfs.nameservices</name>
                       <value>ns1</value>
                   </property>
                   
                   <property>
                       <name>dfs.ha.namenodes.ns1</name>
                       <value>nn1,nn2</value>
                   </property>
                   
                   <property>
                       <name>dfs.namenode.rpc-address.ns1.nn1</name>
                       <value>weekend01:9000</value>
                   </property>
                   
                   <property>
                       <name>dfs.namenode.http-address.ns1.nn1</name>
                       <value>weekend01:50070</value>
                   </property>
                   
                   <property>
                       <name>dfs.namenode.rpc-address.ns1.nn2</name>
                       <value>weekend02:9000</value>
                   </property>
                   
                   <property>
                       <name>dfs.namenode.http-address.ns1.nn2</name>
                       <value>weekend02:50070</value>
                   </property>
                   
                   <property>
                       <name>dfs.namenode.shared.edits.dir</name>
                       <value>qjournal://weekend05:8485;weekend06:8485;weekend07:8485/ns1</value>
                   </property>
                   
                   <property>
                       <name>dfs.journalnode.edits.dir</name>
                       <value>/home/admin/app/hadoop-2.4.1/journaldata</value>
                   </property>
                   
                   <property>
                       <name>dfs.ha.automatic-failover.enabled</name>
                       <value>true</value>
                   </property>
                   
                   <property>
                       <name>dfs.client.failover.proxy.provider.ns1</name>
                       <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
                   </property>
                   
                   <property>
                       <name>dfs.ha.fencing.methods</name>
                       <value>
                           sshfence
                           shell(/bin/true)
                       </value>
                   </property>
                   
                   <property>
                       <name>dfs.ha.fencing.ssh.private-key-files</name>
                       <value>/home/admin/.ssh/id_rsa</value>
                   </property>
                   
                   <property>
                       <name>dfs.ha.fencing.ssh.connect-timeout</name>
                       <value>30000</value>
                   </property>
               </configuration>

           2.2.4修改mapred-site.xml
               <configuration>
                   
                   <property>
                       <name>mapreduce.framework.name</name>
                       <value>yarn</value>
                   </property>
               </configuration>

           2.2.5修改yarn-site.xml
               <configuration>
                       
                       <property>
                       <name>yarn.resourcemanager.ha.enabled</name>
                       <value>true</value>
                       </property>
                       
                       <property>
                       <name>yarn.resourcemanager.cluster-id</name>
                       <value>yrc</value>
                       </property>
                       
                       <property>
                       <name>yarn.resourcemanager.ha.rm-ids</name>
                       <value>rm1,rm2</value>
                       </property>
                       
                       <property>
                       <name>yarn.resourcemanager.hostname.rm1</name>
                       <value>weekend03</value>
                       </property>
                       <property>
                       <name>yarn.resourcemanager.hostname.rm2</name>
                       <value>weekend04</value>
                       </property>
                       
                       <property>
                       <name>yarn.resourcemanager.zk-address</name>
                       <value>weekend05:2181,weekend06:2181,weekend07:2181</value>
                       </property>
                       <property>
                       <name>yarn.nodemanager.aux-services</name>
                       <value>mapreduce_shuffle</value>
                       </property>
               </configuration>


           2.2.6修改slaves(slaves是指定子節點的位置，因為要在weekend01上啟動HDFS、在weekend03啟動yarn，所以weekend01上的slaves檔案指定的是datanode的位置，
                   weekend03上的slaves檔案指定的是nodemanager的位置)
               weekend05
               weekend06
               weekend07
       2.2.7配置免密碼登陸

       2.4將配置好的hadoop拷貝到其他節點(app目錄)
           scp -r hadoop2.4.1 weekend02:/app
           scp -r hadoop2.4.1 weekend03:/app
           scp -r hadoop-2.4.1/ weekend04:/app/
           scp -r hadoop-2.4.1/ weekend05:/app/
           scp -r hadoop-2.4.1/ weekend06:/app/
           scp -r hadoop-2.4.1/ weekend07:/app/

4、啟動（嚴格按照一下步驟）

   4.1啟動zookeeper叢集（分別在weekend05、weekend06、tcast07上啟動zk）
           cd /app/zookeeper-3.4.5/bin/
           ./zkServer.sh start
           #檢視狀態：一個leader，兩個follower
           ./zkServer.sh status
   4.2啟動journalnode（分別在在weekend05、weekend06、tcast07上執行）
           cd /app/hadoop-2.4.1
           sbin/hadoop-daemon.sh start journalnode
           #執行jps命令檢驗，weekend05、weekend06、weekend07上多了JournalNode程序
   4.3格式化HDFS（重啟後不用執行此命令，此處只能格式化一次，否則上傳檔案報錯）
           #在weekend01上執行命令:
           hdfs namenode -format
           #格式化後會在根據core-site.xml中的hadoop.tmp.dir配置生成個檔案，這裡我配置的是/weekend/hadoop-2.4.1/tmp，
           #然後將/weekend/hadoop-2.4.1/tmp拷貝到weekend02的/weekend/hadoop-2.4.1/下。
           scp -r tmp/ weekend02:/home/hadoop/app/hadoop-2.4.1/
           ##也可以這樣，建議hdfs namenode -bootstrapStandby
   4.4格式化ZKFC(在weekend01上執行即可)（重啟需要執行此命令強制啟動zkfc）
           hdfs zkfc -formatZK
   4.5啟動HDFS(在weekend01上執行)
           sbin/start-dfs.sh
   4.6啟動YARN(#####注意#####：是在weekend03上執行start-yarn.sh，把namenode和resourcemanager分開是因為效能問題，
           #因為他們都要佔用大量資源，所以把他們分開了，他們分開了就要分別在不同的機器上啟動)
           sbin/start-yarn.sh
5、瀏覽器訪問
       http://192.168.21.113:50070
       NameNode 'weekend01:9000' (active)
       http://192.168.21.114:50070
       NameNode 'weekend02:9000' (standby)

       手動啟動zkfc
       hdfs hadoop-daemon.sh start zkfc
6、驗證HDFS HA
   首先向hdfs上傳一個檔案
       hadoop fs -put a.txt
       hadoop fs -ls /
   然後再kill掉active的NameNode
       kill -9 <pid of NN>
   通過瀏覽器訪問：http://192.168.21.114:50070
       NameNode 'weekend02:9000' (active)
   這個時候weekend02上的NameNode變成了active
   在執行命令：
       hadoop fs -ls /
       -rw-r--r-- 3 root supergroup 1926 2014-02-06 15:36 /profile
   剛才上傳的檔案依然存在！！！
   手動啟動那個掛掉的NameNode
       sbin/hadoop-daemon.sh start namenode
   通過瀏覽器訪問：http://192.168.21.113:50070
       NameNode 'weekend01:9000' (standby)
7、驗證YARN：（在115上執行）
   執行一下hadoop提供的demo中的WordCount程式：
       hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar wordcount /profile /out



檢視上傳的檔案塊：
/home/admin/app/hadoop-2.4.1/tmpdata/dfs/data/current/BP-1107823742-192.168.21.113-1540886411460/current/finalized

大資料入門（14）hadoop+yarn+zookeeper叢集搭建

大資料入門（14）hadoop+yarn+zookeeper叢集搭建

大資料入門（3）配置hadoop

大資料入門（4）hdfs的shell語法

大資料入門（2）安裝linux的jdk

大資料入門（1）準備linux環境

大資料入門（8）hdfs的客戶端檔案操作

大資料入門（17）hbase叢集搭建

大資料入門（16）mysql5.6.26的rpm方式安裝

大資料入門（15）hive簡介和配置

大資料入門（13）zookeeper的安裝配置

大資料入門（12）mr倒排索引.

大資料入門（11）mr自定義分組和切片劃分

大資料入門（10）序列化機制，mr流量求和

大資料入門（9）mapreduce計算wordcount的程式編寫

大資料入門（7）RPC客戶端和RPC服務端通訊

大資料入門（6）hdfs的客戶端java

大資料入門（5）配置ssh免密登陸

大資料入門（20）kafka安裝配置

大資料入門（19）storm安裝配置

大資料之（4）Hadoop生態系統體系架構及基本概念

大資料入門（14）hadoop+yarn+zookeeper叢集搭建

相關推薦