Hadoop+Spark叢集安裝步驟詳解

一、環境：作業系統版本：SUSE Linux Enterprise Server 11 (x86_64) SP3主機名：192.168.0.10 node1192.168.0.11 node2192.168.0.12 node3192.168.0.13 node4軟體路徑：/data/installHadoop叢集路徑：/dataJAVA_HOME路徑：/usr/jdk1.8.0_66版本

元件名	版本	說明
JRE	jdk-8u66-linux-x64.tar.gz
zookeeper	zookeeper-3.4.6.tar.gz
Hadoop	hadoop-2.7.3.tar.gz	主程式包
spark	spark-2.0.2-bin-hadoop2.7.tgz
hbase	hbase-1.2.5-bin.tar.gz

一、常用命令1.檢視系統版本：linux-n4ga:~ # uname –a #核心版本Linux node1 3.0.76-0.11-default #1 SMP Fri Jun 14 08:21:43 UTC 2013 (ccab990) x86_64 x86_64 x86_64 GNU/Linuxlinux-n4ga:~ # lsb_release #發行版本LSB Version: core-2.0-noarch:core-3.2-noarch:core-4.0-noarch:core-2.0-x86_64:core-3.2-x86_64:core-4.0-x86_64:desktop-4.0-amd64:desktop-4.0-noarch:graphics-2.0-amd64:graphics-2.0-noarch:graphics-3.2-amd64:graphics-3.2-noarch:graphics-4.0-amd64:graphics-4.0-noarchlinux-n4ga:~ # cat /etc/SuSE-release #補丁版本

SUSE Linux Enterprise Server 11 (x86_64)VERSION = 11PATCHLEVEL = 3node1:~ # cat /etc/issueWelcome to SUSE Linux Enterprise Server 11 SP3 (x86_64) - Kernel \r (\l).node1:~ #2.啟動叢集start-dfs.shstart-yarn.sh3.關閉叢集stop-yarn.shstop-dfs.sh4.監控叢集hdfs dfsadmin -report5.單個程序啟動/關閉hadoop-daemon.sh start|stop namenode|datanode| journalnodeyarn-daemon.sh start |stop resourcemanager|nodemanager二、

環境準備（所有伺服器）6.關閉防火牆並禁止開機自啟動linux-n4ga:~ # rcSuSEfirewall2 stopShutting down the Firewall donelinux-n4ga:~ # chkconfig SuSEfirewall2_setup offlinux-n4ga:~ # chkconfig SuSEfirewall2_init offlinux-n4ga:~ # chkconfig --list|grep fireSuSEfirewall2_init 0:off 1:off 2:off 3:off 4:off 5:off 6:offSuSEfirewall2_setup 0:off 1:off 2:off 3:off 4:off 5:off 6:off7.設定主機名（其它類似）linux-n4ga:~ # hostname node1linux-n4ga:~ # vim /etc/HOSTNAMEnode1.site8.ssh免密登陸node1:~ # ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsanode1:~ # cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keysnode1:~ # ll -d .ssh/drwx------ 2 root root 4096 Jun 5 08:50 .ssh/node1:~ # ll .ssh/ total 12-rw-r--r-- 1 root root 599 Jun 5 08:50 authorized_keys-rw------- 1 root root 672 Jun 5 08:50 id_dsa-rw-r--r-- 1 root root 599 Jun 5 08:50 id_dsa.pub把其它伺服器的~/.ssh/id_dsa.pub內容也追加到node1伺服器的~/.ssh/authorized_keys檔案中，然後分發scp –rp ~/.ssh/authorized_keys [email protected]: ~/.ssh/scp –rp ~/.ssh/authorized_keys [email protected]: ~/.ssh/scp –rp ~/.ssh/authorized_keys [email protected]68.0.13: ~/.ssh/9.修改hosts檔案node1:~ # vim /etc/hosts… …ff02::2 ipv6-allroutersff02::3 ipv6-allhosts192.168.0.10 node1192.168.0.11 node2192.168.0.12 node3192.168.0.13 node4分發：scp -rp /etc/hosts [email protected]:/etc/10.修改檔案控制代碼數node1:~ # vim /etc/security/limits.conf* soft nofile 24000* hard nofile 65535* soft nproc 24000* hard nproc 65535node1:~ # source /etc/security/limits.confnode1:~ # ulimit -n2400011.時間同步測試（舉例）node1 :~ # /usr/sbin/ntpdate 192.168.0.1013 Jun 13:49:41 ntpdate[8370]: adjust time server 192.168.0.10 offset -0.007294 sec新增定時任務node1 :~ # crontab –e*/10 * * * * /usr/sbin/ntpdate 192.168.0.10 > /dev/null 2>&1;/sbin/hwclock -wnode1:~ # service cron restartShutting down CRON daemon doneStarting CRON daemon donenode1:~ # dateTue Jun 13 05:32:49 CST 2017node1:~ #12.上傳安裝包到node1伺服器node1:~ # mkdir –pv /data/installnode1:~ # cd /data/installnode1:~ # pwd/data/install上傳安裝包到/data/install目錄下node1:/data/install # lltotal 671968-rw-r--r-- 1 root root 214092195 Jun 5 05:40 hadoop-2.7.3.tar.gz-rw-r--r-- 1 root root 104584366 Jun 5 05:40 hbase-1.2.5-bin.tar.gz-rw-r--r-- 1 root root 181287376 Jun 5 05:47 jdk-8u66-linux-x64.tar.gz-rw-r--r-- 1 root root 187426587 Jun 5 05:40 spark-2.0.2-bin-hadoop2.7.tgz-rw-r--r-- 1 root root 187426587 Jun 5 05:40 zookeeper-3.4.6.tar.gz13.安裝JDKnode1:~ # cd /data/installnode1:/data/install # tar -zxvf jdk-8u66-linux-x64.tar.gz -C /usr/配置環境變數node1:/data/install #vim /etc/profileexport JAVA_HOME=/usr/jdk1.8.0_66export HADOOP_HOME=/data/hadoop-2.7.3export HBASE_HOME=/data/hbase-1.2.5export SPARK_HOME=/data/spark-2.0.2export ZOOKEEPER_HOME=/data/zookeeper-3.4.6export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATHexport CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/libexport PATH=$ZOOKEEPER_HOME/bin:$PATHexport PATH=$HBASE_HOME/bin:$PATHexport PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATHexport PATH=$SPARK_HOME/bin:$PATHnode1:/opt # source /etc/profilenode1:~ # java –version #驗證java version "1.8.0_66"Java(TM) SE Runtime Environment (build 1.8.0_66-b17)Java HotSpot(TM) 64-Bit Server VM (build 25.66-b17, mixed mode)node1:~ # echo $JAVA_HOME/usr/jdk1.8.0_66三、安裝zookeeper14.解壓zookeepernode1:~ # cd /data/installnode1:/data/install # tar -zxvf zookeeper-3.4.6.tar.gz -C /data/15.配置zoo.cfg檔案node1:/data/install # cd /data/zookeeper-3.4.6/conf/ #進入conf目錄node1: /data/zookeeper-3.4.6/conf/ # cp zoo_sample.cfg zoo.cfg #拷貝模板node1: /data/zookeeper-3.4.6/conf/ # vi zoo.cfg# The number of millinode2s of each ticktickTime=2000# The number of ticks that the initial# synchronization phase can takeinitLimit=10# The number of ticks that can pass between# sending a request and getting an acknowledgementsyncLimit=5# the directory where the snapshot is stored.# do not use /tmp for storage, /tmp here is just# example sakes.dataDir=/data/zookeeper-3.4.6/datadataLogDir=/data/zookeeper-3.4.6/dataLog# the port at which the clients will connectclientPort=2181# the maximum number of client connections.# increase this if you need to handle more clients#maxClientCnxns=60## Be sure to read the maintenance section of the# administrator guide before turning on autopurge.## http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance## The number of snapshots to retain in dataDir#autopurge.snapRetainCount=3# Purge task interval in hours# Set to "0" to disable auto purge feature#autopurge.purgeInterval=1server.1=node1:2888:3888server.2=node2:2888:3888server.3=node3:2888:388816.新增myid，分發(安裝個數為奇數)建立指定目錄：dataDir目錄下增加myid檔案;myid中寫當前zookeeper服務的id, 因為server.1=node1:2888:3888 server指定的是1,node1: /data/zookeeper-3.4.6/conf/ # mkdir –pv /data/zookeeper-3.4.6/{data, dataLog}node1: /data/zookeeper-3.4.6/conf/ # echo 1 > /data/zookeeper-3.4.6/data/myid17.分發：node1: /data/zookeeper-3.4.6/conf/ # scp -rp /data/zookeeper-3.4.6 [email protected]:/datanode1: /data/zookeeper-3.4.6/conf/ # scp -rp /data/zookeeper-3.4.6 [email protected]:/data在其餘機子配置，node2下面的myid是2，node3下面myid是3，這些都是根據server來的node2: /data/zookeeper-3.4.6/conf/ # echo 2 > /data/zookeeper-3.4.6/data/myidnode3: /data/zookeeper-3.4.6/conf/ # echo 3> /data/zookeeper-3.4.6/data/myid四、安裝Hadoop18.解壓hadoop node1:~ # cd /data/installnode1:/data/install # tar -zxvf hadoop-2.7.3.tar.gz -C /data/19.配置hadoop-env.shnode1:~ # vim /data/hadoop-2.7.3/etc/hadoop/hadoop-env.shexport JAVA_HOME=/usr/jdk1.8.0_6620.配置core-site.xmlnode1:~ # vim /data/hadoop-2.7.3/etc/hadoop/core-site.xml <?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration>  <property> <value>hdfs://mycluster</value> </property> <property><name>hadoop.tmp.dir</name><value>/data/hadoop-2.7.3/data/tmp</value></property><property><name>ha.zookeeper.quorum</name><value>node1:2181,node2:2181,node3:2181</value><discription>zookeeper客戶端連線地址</discription></property><property><name>ha.zookeeper.session-timeout.ms</name><value>10000</value></property> <property> <name>fs.trash.interval</name> <value>1440</value> <discription>以分鐘為單位的垃圾回收時間，垃圾站中資料超過此時間，會被刪除。如果是0，垃圾回收機制關閉。</discription> </property> <property> <name>fs.trash.checkpoint.interval</name> <value>1440</value> <discription>以分鐘為單位的垃圾回收檢查間隔。</discription> </property></configuration>21.配置yarn-site.xmlnode1:~ # vim /data/hadoop-2.7.3/etc/hadoop/yarn-site.xml #<?xml version="1.0"?><configuration> <property> <name>yarn.app.mapreduce.am.scheduler.connection.wait.interval-ms</name> <value>5000</value> <discription>schelduler失聯等待連線時間</discription> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> <discription>NodeManager上執行的附屬服務。需配置成mapreduce_shuffle，才可執行MapReduce程式</discription> </property> <property> <name>yarn.resourcemanager.ha.enabled</name> <value>true</value> <discription>是否啟用RM HA，預設為false（不啟用）</discription> </property> <property> <name>yarn.resourcemanager.cluster-id</name> <value>cluster1</value> <discription>叢集的Id，elector使用該值確保RM不會做為其它叢集的active。</discription> </property> <property> <name>yarn.resourcemanager.ha.rm-ids</name> <value>rm1,rm2</value> <discription>RMs的邏輯id列表,用逗號分隔,如:rm1,rm2 </discription> </property> <property> <name>yarn.resourcemanager.hostname.rm1</name> <value>node3</value> <discription>RM的hostname</discription> </property> <property> <name>yarn.resourcemanager.scheduler.address.rm1</name> <value>${yarn.resourcemanager.hostname.rm1}:8030</value> <discription>RM對AM暴露的地址,AM通過地址想RM申請資源,釋放資源等</discription> </property> <property> <name>yarn.resourcemanager.resource-tracker.address.rm1</name> <value>${yarn.resourcemanager.hostname.rm1}:8031</value> <discription>RM對NM暴露地址,NM通過該地址向RM彙報心跳,領取任務等</discription> </property> <property> <name>yarn.resourcemanager.address.rm1</name> <value>${yarn.resourcemanager.hostname.rm1}:8032</value> <discription>RM對客戶端暴露的地址,客戶端通過該地址向RM提交應用程式等</discription> </property> <property> <name>yarn.resourcemanager.admin.address.rm1</name> <value>${yarn.resourcemanager.hostname.rm1}:8033</value> <discription>RM對管理員暴露的地址.管理員通過該地址向RM傳送管理命令等</discription> </property> <property> <name>yarn.resourcemanager.webapp.address.rm1</name> <value>${yarn.resourcemanager.hostname.rm1}:8088</value> <discription>RM對外暴露的web http地址，使用者可通過該地址在瀏覽器中檢視叢集資訊</discription> </property> <property> <name>yarn.resourcemanager.hostname.rm2</name> <value>node4</value> </property> <property> <name>yarn.resourcemanager.scheduler.address.rm2</name> <value>${yarn.resourcemanager.hostname.rm2}:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address.rm2</name> <value>${yarn.resourcemanager.hostname.rm2}:8031</value> </property> <property> <name>yarn.resourcemanager.address.rm2</name> <value>${yarn.resourcemanager.hostname.rm2}:8032</value> </property> <property> <name>yarn.resourcemanager.admin.address.rm2</name> <value>${yarn.resourcemanager.hostname.rm2}:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address.rm2</name> <value>${yarn.resourcemanager.hostname.rm2}:8088</value> </property> <property> <name>yarn.resourcemanager.recovery.enabled</name> <value>true</value> <discription>預設值為false，也就是說resourcemanager掛了相應的正在執行的任務在rm恢復後不能重新啟動</discription> </property> <property> <name>yarn.resourcemanager.store.class</name> <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value> <discription>狀態儲存的類</discription> </property> <property> <name>yarn.resourcemanager.zk-address</name> <value>node1:2181,node2:2181,node3:2181</value> </property> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value> 240000</value> <discription>該節點上nodemanager可使用的實體記憶體總量</discription> </property> <property> <name>yarn.nodemanager.resource.cpu-vcores</name> <value>24</value> <discription>該節點上nodemanager可使用的虛擬CPU個數</discription> </property> <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>1024</value> <discription>單個任務可申請的最小實體記憶體量</discription> </property> <property> <name>yarn.scheduler.maximum-allocation-mb</name> <value>240000</value> <discription>單個任務可申請的最大實體記憶體量</discription> </property> <property> <name>yarn.scheduler.minimum-allocation-vcores</name> <value>1</value> <discription>單個任務可申請的最小虛擬CPU個數</discription> </property> <property> <name>yarn.scheduler.maximum-allocation-vcores</name> <value>24</value> <discription>單個任務可申請的最大虛擬CPU個數</discription> </property> <property> <name>yarn.nodemanager.vmem-pmem-ratio</name> <value>4</value> <discription>任務每使用1MB實體記憶體，最多可使用虛擬記憶體量，預設是2.1。</discription> </property></configuration>22.配置mapred-site.xmlnode1:~ # cp /data/hadoop-2.7.3/etc/hadoop/mapred-site.xml{.template,}node1:~ # vim /data/hadoop-2.7.3/etc/hadoop/mapred-site.xml<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration>23.配置hdfs-site.xmlnode1:~ # vim /data/hadoop-2.7.3/etc/hadoop/hdfs-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <property> <name>dfs.replication</name> <value>2</value> <description>儲存副本數</description> </property> <property> <name>dfs.nameservices</name> <value>mycluster</value> </property> <property> <name>dfs.ha.namenodes.mycluster</name> <value>nn1,nn2</value> </property> <property> <name>dfs.namenode.rpc-address.mycluster.nn1</name> <value>node1:8020</value> </property> <property> <name>dfs.namenode.rpc-address.mycluster.nn2</name> <value>node2:8020</value> </property> <property> <name>dfs.namenode.http-address.mycluster.nn1</name> <value>node1:50070</value> </property> <property> <name>dfs.namenode.http-address.mycluster.nn2</name> <value>node2:50070</value> </property> <property> <name>dfs.namenode.shared.edits.dir</name> <value>qjournal://node1:8485;node2:8485;node3:8485/mycluster</value> </property> <property> <name>dfs.client.failover.proxy.provider.mycluster</name> <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value> </property> <property> <name>dfs.ha.fencing.methods</name> <value>sshfence</value> </property> <property> <name>dfs.ha.fencing.ssh.private-key-files</name> <value>/root/.ssh/id_dsa</value> </property> <property> <name>dfs.journalnode.edits.dir</name> <value>/data/ hadoop-2.7.3/data/journal</value> </property> <property> <name>dfs.permissions.superusergroup</name> <value>root</value><description>超級使用者組名</description> </property> <property> <name>dfs.ha.automatic-failover.enabled</name> <value>true</value><description>開啟自動故障轉移</description> </property></configuration>新建相應目錄node1:~ # mkdir -pv /data/ hadoop-2.7.3/data/{journal,tmp}24.配置capacity-scheduler.xml<configuration> <property> <name>yarn.scheduler.capacity.maximum-applications</name> <value>10000</value> <description> Maximum number of applications that can be pending and running. </description> </property> <property> <name>yarn.scheduler.capacity.maximum-am-resource-percent</name> <value>0.1</value> <description> Maximum percent of resources in the cluster which can be used to run application masters i.e. controls number of concurrent running applications. </description> </property> <property> <name>yarn.scheduler.capacity.resource-calculator</name> <value>org.apache.hadoop.yarn.util.resource.DominantResourceCalculator</value> <description> The ResourceCalculator implementation to be used to compare Resources in the scheduler. The default i.e. DefaultResourceCalculator only uses Memory while DominantResourceCalculator uses dominant-resource to compare multi-dimensional resources such as Memory, CPU etc. </description> </property> <property> <name>yarn.scheduler.capacity.root.queues</name> <value>default</value>

Hadoop+Spark叢集安裝步驟詳解

Hadoop+Spark叢集安裝步驟詳解

Hadoop-2.5.2叢集安裝配置詳解

CentOS7安裝步驟詳解

虛擬機 CentOS 7安裝步驟詳解

Linux之CENTOS7安裝步驟詳解

window環境下Ruby和Sass的最新安裝步驟詳解

MATLAB安裝步驟詳解

ORACLE資料庫安裝步驟詳解（LINUX）

MySQL5.7完全解除安裝步驟詳解

C語言是什麼和vc6.0的安裝步驟詳解及第一個c程式

MySQL資料庫安裝步驟詳解

VMware Workstation 12 Pro 虛擬機器安裝步驟詳解

Rational Rose 2007安裝步驟詳解及解決安裝過程中的一些問題（解決虛擬光碟機載入不了bin檔案問題）

RHEL 7 安裝步驟詳解

Ubuntukylin-14.04-desktop（不帶分割槽）安裝步驟詳解

Ubuntu11.10 帶圖形安裝步驟詳解

Ubuntukylin-14.04-desktop（帶分割槽）安裝步驟詳解

Linux下基於Hadoop的大資料環境搭建步驟詳解（Hadoop，Hive，Zookeeper，Kafka，Flume，Hbase，Spark等安裝與配置）

hadoop環境安裝配置步驟詳解

大資料學習系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive叢集搭建圖文詳解

Hadoop+Spark叢集安裝步驟詳解

相關推薦