阿里雲學生機搭建spark、hadoop叢集（踩坑之路）

阿新 • • 發佈：2019-01-26

伺服器：三臺阿里雲學生機（三個賬號，都在華南1c）系統：ubuntu

一、通過外網ip登入伺服器

需要修改安全組,出入方向都一樣，都加入這兩條。為何加這兩條後續慢慢說明。第一條安全組功能之一就是為了能夠本地ssh到伺服器。（網上第一條几乎所有的埠配置都是22/22，後續解釋為何改成1/65000）

授權策略	協議型別	埠範圍	授權型別	授權物件	描述	優先順序	建立時間	操作
允許	自定義 TCP	1/65000	地址段訪問	0.0.0.0/0	all	1	2018-04-04 14:24:48	修改描述\|克隆\|刪除
允許	全部 ICMP	-1/-1	地址段訪問	0.0.0.0/0	-	1	2018-04-02 15:28:49	修改描述\|克隆\|刪除

然後直接ssh [email protected]公網IP，輸入密碼後即可登入。

二、修改hostName、hosts、關閉防火牆

1、在三臺伺服器上關閉防火牆

sudo ufw disable關閉之後可以用sudo ufw status看一下防火牆狀態

2、vi /etc/hostName

把localhost改成想要改成的主機名把三臺分別改成master,slave1,slave2

3、vi /etc/hosts

注意這裡用公網IP後續起Hadoop是起不來的,必須要用私網IP.否則報如下的錯：2018-04-04 14:27:37,876 ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: Failed to start namenode.新增：私網IP1 slave1私網IP2 slave2私網IP3 master刪除:127.0.0.1 localhost不清楚的這裡看一下，icmp協議用於在IP主機、路由器之間傳遞控制訊息。控制訊息指網路通不通、主機是否可達、路由是否可用等網路本身的訊息(百度的)。ping就是用的icmp協議，所以上面安全組需要新增第二條。但改完hosts檔案之後發現內網IP竟然互相ping不通。

解決完之後就可以ping通內網了。

三、ssh無密登入

sudo apt-get install openssh-serversudo apt-get updatessh-keygen -t rsa -P ""//提示選擇目錄時，按 Enter 鍵，那麼 id_rsa 和 id_rsa.pub 會生成到 root/.ssh 目錄下在三臺伺服器上執行：cd root/.ssh，cat id_rsa.pub>>authorized_keys，將 id_rsa.pub 追加到 authorized_keys。將 slave1 和 slave2 的 id_rsa.pub 拷貝到 master（傳輸檔案可用 scp），並將其內容追加到 master 的 root/.ssh/authorized_keys 中。同理，將 slave1 和 master 的 id_rsa.pub 追加到 slave2 的 authorized_keys，將 slave2 和 master 的 id_rsa.pub 追加到 slave1 的 authorized_keys。

最後驗證互相無密登入：ssh masterssh slave1ssh slave2

四、安裝jdk

sudo add-apt-repository ppa:webupd8team/javasudo apt-get updatesudo apt-get install oracle-java8-installer安裝目錄在/usr/lib/jvm/java-8-openjdk-amd64vim /etc/profile新增export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64export PATH=${JAVA_HOME}/bin:$PATH儲存完退出source /etc/profilejava -version 驗證

五、安裝Scala

本人所有包都在/root/sparkFiles下下載scala-2.12.5.tgztar xvzf scala-2.12.5.tgz解壓到sparkFiles下，改名為scala-2.12.5Vim /etc/profile新增：export SCALA_HOME=/root/sparkFiles/scala-2.12.5export PATH=$SCALA_HOME/bin:$PATH儲存完退出source /etc/profile

六、安裝Hadoop

下載hadoop-2.7.5.tar.gztar xvzf hadoop-2.7.5.tar.gz解壓到sparkFiles下，改名為hadoop-2.7.5Vim /etc/profile新增：export HADOOP_HOME=/root/sparkFiles/hadoop-2.7.5export PATH=$PATH:$HADOOP_HOME/binexport PATH=$PATH:$HADOOP_HOME/sbinexport HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HADOOP_COMMON_HOME=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEexport YARN_HOME=$HADOOP_HOMEexport HADOOP_ROOT_LOGGER=INFO,consoleexport HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/nativeexport HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib”儲存完退出source /etc/profile修改$HADOOP_HOME/etc/hadoop/hadoop-env.shexport JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64修改$HADOOP_HOME/etc/hadoop/slaves，將原來的localhost刪除，改成如下內容：slave1slave2修改$HADOOP_HOME/etc/hadoop/core-site.xml<configuration> <property> <name>fs.defaultFS</name> </property> <property> <name>io.file.buffer.size</name> <value>131072</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/root/sparkFiles/hadoop-2.7.5/tmp</value> </property></configuration>修改$HADOOP_HOME/etc/hadoop/hdfs-site.xml<configuration> <property> <name>dfs.namenode.secondary.http-address</name> <value>master:50090</value> </property> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/root/sparkFiles/hadoop-2.7.5/hdfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/root/sparkFiles/hadoop-2.7.5/hdfs/data</value> </property></configuration>複製template，生成xml，命令如下：cp mapred-site.xml.template mapred-site.xml修改$HADOOP_HOME/etc/hadoop/mapred-site.xml<configuration><property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>master:10020</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>master:19888</value> </property></configuration>修改$HADOOP_HOME/etc/hadoop/yarn-site.xml<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>master:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>master:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>master:8031</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>master:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>master:8088</value> </property></configuration>複製master節點的hadoop資料夾到slave1和slave2上。scp -r /sparkFiles/hadoop-2.7.5 [email protected]:/root/sparkFilesscp -r /sparkFiles/hadoop-2.7.5 [email protected]:/root/sparkFiles在slave1和slave2上分別修改/etc/profile，過程同master一樣。在master節點啟動叢集，啟動之前格式化一下namenode：cd /sparkFiles//hadoop-2.7.5/sbinhadoop namenode -format啟動./start-all.sh檢視叢集是否啟動成功：jpsmaster顯示：SecondaryNameNodeResourceManagerNameNodeslave顯示：NodeManagerDataNode注：在啟動之後，在本地用公網IP加8088打不開，檢視slave日誌，發現報錯：WARNorg.apache.hadoop.hdfs.server.datanode.DataNode:Problem connectingtoserver:master/192….:9000這就是為什麼安全組第一條這樣配1/65000的原因了，因為slave不能訪問master的Hadoop需要的各種預設埠，如果只是按網上配的22/22，就只能訪問22埠，就會報錯。1/65000就包含了Hadoop的所有預設埠，這樣slave就能訪問master所需的埠了。本地可用公網ip加8088埠檢視UI驗證

七、安裝spark

下載spark-2.2.0-bin-hadoop2.7.tgztar xvzf spark-2.2.0-bin-hadoop2.7.tgz解壓到sparkFiles下，改名為spark-2.2.0Vim /etc/profile新增：export SPARK_HOME=/root/sparkFiles/spark-2.2.0export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin儲存完退出source /etc/profilemv spark-env.sh.template spark-env.shmv log4j.properties.template log4j.propertiesmv slaves.template slaves在 spark-env.sh 結尾新增export SCALA_HOME=/root/sparkFiles/scala-2.12.5export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64export HADOOP_CONF_DIR=/root/sparkFiles/hadoop-2.7.5/etc/hadoop修改 slaves 檔案masterslave1slave2將配置資訊複製到其它伺服器cd /root/sparkFiles/spark-2.2.0/sbin./start.all.shjps命令看master下是否出現master和worker，在 slave節點下是否出現 worker執行 Spark 例項run-example SparkPi 10最後本地訪問master的8080埠檢視

阿里雲學生機搭建spark、hadoop叢集（踩坑之路）

一、通過外網ip登入伺服器

二、修改hostName、hosts、關閉防火牆

1、在三臺伺服器上關閉防火牆

2、vi /etc/hostName

3、vi /etc/hosts

三、ssh無密登入

四、安裝jdk

五、安裝Scala

六、安裝Hadoop

七、安裝spark

阿里雲學生機搭建spark、hadoop叢集（踩坑之路）

阿里雲學生機搭建FTP實戰（日後完善）

如何搭建自己的Git倉庫（小白之路）

阿里雲訊息佇列MQTT踩坑之路（阿里雲MQTT Android客戶端）

一鍵配置高可用Hadoop叢集（hdfs HA+zookeeper HA）

使用phpstorm連線雲虛擬主機上的MySQL資料庫踩坑之路；

Spark、Hadoop大資料平臺搭建

三臺阿里雲伺服器搭建完全分散式hadoop叢集並實現sparkstreaming詳細步驟

阿里雲ECS上搭建Hadoop叢集環境——使用兩臺ECS伺服器搭建“Cluster mode”的Hadoop叢集環境

阿里雲三臺節點，搭建完全分散式hadoop叢集,超簡單

一、申請阿里雲伺服器及搭建Java開發環境教程 -- 購買阿里雲伺服器（1）

安裝Spark+hadoop，spark、hadoop分散式叢集搭建...(親自搭建過！！)

阿里雲虛擬機器搭建Hadoop-2.6.0-cdh5.7.1安裝詳解（偽分散式環境）

阿里雲ECS伺服器部署HADOOP叢集（一）：Hadoop完全分散式叢集環境搭建

spark、hadoop動態增減節點

windows系統上執行spark、hadoop報錯Could not locate executable null\bin\winutils.exe in the Hadoop binaries

阿里雲centos7.3 安裝mysql、influxdb、rabbitmq

【轉】阿里雲Ubuntu系統搭建SVN伺服器

阿里雲音樂趨勢預測初賽、複賽資料集下載

阿里雲ubantu16.04 搭建LAMP環境

阿里雲學生機搭建spark、hadoop叢集（踩坑之路）

一、通過外網ip登入伺服器

二、修改hostName、hosts、關閉防火牆

1、在三臺伺服器上關閉防火牆

2、vi /etc/hostName

3、vi /etc/hosts

三、ssh無密登入

四、安裝jdk

五、安裝Scala

六、安裝Hadoop

七、安裝spark

相關推薦