1. 程式人生 > >hadoop&spark叢集搭建

hadoop&spark叢集搭建

1.準備工作

1.1 jdk下載安裝

1.2 官網下載:

scala-2.10.4.tgz(支援spark)

hadoop-2.6.0.tar.gz

spark-1.6.0-bin-hadoop2.6.tgz

1.3 準備三臺虛擬機器

centos6.3

地址:172.16.100.01,172.16.100.02,172.16.100.03,新建使用者:

useradd cluster

passwd cluster

修改三臺機器的hosts,新增內容:

[[email protected] home]# vim /etc/hosts
172.16.100.01 master
172.16.100.02 slave1
172.16.100.03 slave2

2.實現ssh無密登入

ssh-keygen -t rsa(一路回車,圖形輸出表示成功)

cd /home/cluster/.ssh下面多出兩個檔案:

    私鑰檔案:id_raa

    公鑰檔案:id_rsa.pub

將三臺虛擬機器的公鑰id_rsa_pub的內容放到authorized_key中:

在/home/cluster/.shh目錄下執行:

    cat id_rsa.put >> authorized_keys

將authorized_keys放到另外兩臺虛擬機器下執行相同命令,最後將存入了三臺虛擬機器公鑰的authorized_keys檔案存入到三臺虛擬機器中。

修改三臺虛擬機器的authorized_keys檔案許可權,chmod 644 authorized_keys

測試ssh之間是否互通,(相互測試是否通的,很重要)

# ssh 172.16.100.02

3.hadoop叢集搭建

先在master主機上配置

1)把下載的hadoop-2.6.0.tar.gz解壓到hadoop目錄下

2)建立目錄:

mkdir -p /home/cluster/hadoop/{pids,storage}
mkdir -p /home/cluster/hadoop/storage/{hdfs,tmp}
mkdir -p /home/cluster/hadoop/storage/hdfs/{name,data}

3)配置環境變數:vim /etc/profile (也可以修改當前使用者的環境變數/home/cluster/.bashrc)

export HADOOP_HOME=/home/cluster/hadoop/hadoop-2.6.0  
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH  
source /etc/profile

4)修改配置檔案core-site.xml

<configuration>  
        <property>  
                <name>hadoop.tmp.dir</name>  
                <value>file:/home/cluster/hadoop/storage/tmp</value>  
        </property>  
        <property>  
                <name>fs.defaultFS</name>  
                <value>hdfs://master:9000</value>  
        </property>  
        <property>  
                <name>io.file.buffer.size</name>  
                <value>131072</value>  
        </property>
		<property>  
                <name>hadoop.proxyuser.spark.hosts</name>  
                <value>*</value>  
        </property>
		<property>  
                <name>hadoop.proxyuser.spark.groups</name>  
                <value>*</value>  
        </property>
		<property>  
                <name>hadoop.native.lib</name>  
                <value>true</value>  
        </property>
<configuration>  
5)修改配置檔案hdfs-site.xml
<configuration>  
		  <property>  
                <name>dfs.namenode.secondary.http-address</name>  
                <value>master:9001</value>  
        </property> 
        <property>  
                <name>dfs.namenode.name.dir</name>  
                <value>file:/home/cluster/hadoop/storage/hdfs/name</value>  
        </property>  
        <property>  
                <name>dfs.datanode.data.dir</name>  
                <value>file:/home/cluster/hadoop/storage/hdfs/data</value>  
        </property>  
        <property>  
                <name>dfs.replication</name>  
                <value>2</value>  
        </property>   
	    <property>  
	        <name>dfs.webhdfs.enabled</name>  
	        <value>true</value>  
	    </property>  
</configuration> 
6)修改配置檔案mapred-site.xml
<configuration>  
        <property>  
                <name>mapreduce.framework.name</name>  
                <value>yarn</value>  
                <final>true</final>  
        </property>  
  
    <property>  
        <name>mapreduce.jobtracker.http.address</name>  
        <value>master:50030</value>  
    </property>  
    <property>  
        <name>mapreduce.jobhistory.address</name>  
        <value>master:10020</value>  
    </property>  
    <property>  
        <name>mapreduce.jobhistory.webapp.address</name>  
        <value>master:19888</value>  
    </property>  
        <property>  
                <name>mapred.job.tracker</name>  
                <value>http://master:9001</value>  
        </property>  
</configuration> 
7)修改配置檔案yarn-site.xml
<configuration>  
 
        <property>  
                <name>yarn.resourcemanager.hostname</name>  
                <value> master</value>  
        </property>  
  
    <property>  
        <name>yarn.nodemanager.aux-services</name>  
        <value>mapreduce_shuffle</value>  
    </property>  
	 <property>  
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>  
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>  
    </property> 
    <property>  
        <name>yarn.resourcemanager.address</name>  
        <value> master:8032</value>  
    </property>  
    <property>  
        <name>yarn.resourcemanager.scheduler.address</name>  
        <value> master:8030</value>  
    </property>  
    <property>  
        <name>yarn.resourcemanager.resource-tracker.address</name>  
        <value> master:8031</value>  
    </property>  
    <property>  
        <name>yarn.resourcemanager.admin.address</name>  
        <value> master:8033</value>  
    </property>  
    <property>  
        <name>yarn.resourcemanager.webapp.address</name>  
        <value> master:8088</value>  
    </property>  
</configuration>  
8)vim  hadoop-env.sh  和yarn-env.sh  在開頭新增如下環境變數(一定要新增切勿少了)

    export JAVA_HOME=jdk路徑

9)配置slave

master
slave1
slave2
10)將整個hadoop資料夾複製到其他兩臺虛擬機器下 scp命令:
scp -r hadoop 127.16.100.02:/home/cluster
scp -r hadoop 127.16.100.03:/home/cluster
並配置環境變數,關閉防火牆 service iptables stop  

11)驗證

在hadoop目錄下執行
bin/hdfs namenode –format (只執行一次)
sbin/start-dfs.sh     #啟動HDFS
sbin/stop-dfs.sh     #停止HDFS
sbin/start-all.sh或者stop-all.sh
jps命令驗證


HDFS管理頁面http://10.10.4.124:50070

4.scala安裝

1)解壓將下載的scala-2.10.4.tgz解壓在/home/cluster/scala中2)新增環境變數,並執行source /etc/profile使之生效

3)驗證,直接輸入scala

4)其他兩臺虛擬機器重複操作

5.spark安裝

1)解壓

將解壓的spark-1.6.0-bin-hadoop2.6.tgz解壓在/home/cluster/spark中(tar命令)

修改名字:mv spark-1.6.0-bin-hadoop2.6 spark

2)新增環境變數
export SPARK_HOME=/home/cluster/spark/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

3)修改/home/cluster/spark/spark/conf目錄下:spark-env.sh

mv spark-env.sh.template spark-env.sh

新增環境變數:


4) mv log4j.properties.template log4j.properties

5)mv slaves.template  slaves

編輯內容:

master
slave01
slave02

6)修改相關目錄許可權,否則無法啟動

chmod -R 777 spark

7)其他兩臺虛擬機器重複操作

8)啟動spark和關閉叢集

/home/cluster/spark/spark/sbin/start-all.sh

/home/cluster/spark/spark/sbin/stop-all.sh

jps命令檢視啟動程序情況

監控頁面:主機ip:8080




相關推薦

hadoop&spark叢集搭建

1.準備工作1.1 jdk下載安裝1.2 官網下載:scala-2.10.4.tgz(支援spark)hadoop-2.6.0.tar.gzspark-1.6.0-bin-hadoop2.6.tgz1.3 準備三臺虛擬機器centos6.3地址:172.16.100.01,1

hadoopspark叢集搭建後續

問題1:檢視 jps,裡面只有HQuorumPeer,沒有 HRegionServer 檢視logs,master rejected startup because clock is out of sync 原因:幾臺機器時間對不上 解決方法:將有問題機器的時間校正 date -s

Hadoopspark叢集搭建踩過的坑

本叢集總共有三臺主機,一臺master,兩臺slave Hadoop有一個節點無法啟動 在按照教程子雨大資料之Spark入門教程(Python版)搭建Hadoop叢集時,執行jps命令,發現master和其中一個slave能正常工作,執行./bin/yarn node -lis

安裝Spark+hadoopsparkhadoop分散式叢集搭建...(親自搭建過!!)

首先說一下我所用的版本: spark-2.1.1-bin-hadoop2.7.tgz hadoop-2.7.3.tar.gz jdk-8u131-linux-x64.rpm 我們實驗室有4臺伺服器:每個節點硬碟:300GB,記憶體:64GB。四個

spark叢集搭建Hadoop、Scala)

1.從官網下載hadoop、spark、scala 我的版本: hadoop-2.7.3.tar.gz scala-2.11.8.tgz spark-2.1.0-bin-hadoop2.7.tgz (注意:spark版本要與scala 版本相互對應) 2.配置host檔案

大數據學習系列之六 ----- Hadoop+Spark環境搭建

csdn jdk sts htm ps命令 sta cnblogs 環境變量設置 lib 引言 在上一篇中 大數據學習系列之五 ----- Hive整合HBase圖文詳解 : http://www.panchengming.com/2017/12/18/pancm62/

Hadoop 分散式叢集搭建

1 修改配置檔案 1.1 hadoop-env.sh export JAVA_HOME=/usr/apps/jdk1.8.0_181-amd64 1.2 core-site.xml <property> <name>fs.def

大資料:spark叢集搭建

建立spark使用者組,組ID1000 groupadd -g 1000 spark 在spark使用者組下建立使用者ID 2000的spark使用者 獲取視訊中文件資料及完整視訊的夥伴請加QQ群:947967114useradd -u 2000 -g spark spark 設定密碼 passwd

Spark學習記錄(二)Spark叢集搭建

Hadoop  Spark叢集搭建,以及IDEA遠端除錯 環境:Hadoop-2.7.2  jdk-1.8   scala-2-11-12  spark-2.1.0 spark2.0.0開始,只支援Java8版本了,

vmware centos hadoop分散式叢集搭建 粗略筆記

初始設定: 虛擬了三個CentOs系統(安裝CentOs的步驟省略),一臺master 兩臺slave,使用者名稱全部為hadoop,具體如下(除了第一步使用root使用者操作,其他均使用hadoop使用者): 1.新增hadoop使用者 第一步:grou

Centos 7下Hadoop分散式叢集搭建

    一、關閉防火牆(直接用root使用者) #關閉防火牆 sudo systemctl stop firewalld.service #關閉開機啟動 sudo systemctl disable firewalld.service 二、修改每臺主機

Hadoop分散式叢集搭建方法(Version: java 1.8+CentOS 6.3)

夏天小廚 前言 大資料這個概念,說的通俗點就是對海量資料的處理分析。據不完全統計,世界百分之九十的資料都由近幾年產生,且不說海量資料的ETL,單從資料的儲存和資料展現的實時性,傳統的單機就已經無法滿足實際場景的需要例如很多OLAP系統。由此引出了Hadoop,Hadoop

VMware NAT模式連線hadoop/spark叢集

VMware的網路模式一直不好配置,參考了很多教程也講得不是很清晰,於是自己折騰了很久終於整理出一個清晰的版本供大家參考。 配置坑爹的vm網路配置說明: vm三個虛擬網絡卡對應三種網路模式 1.Vmnet0 橋接模式:虛擬機器和主機ip在同一個網段,虛擬機器擁有獨立的i

Spark叢集搭建

1.1下載spark安裝包 下載地址spark官網:http://spark.apache.org/downloads.html 這裡我們使用spark-2.0.2-bin-hadoop2.7版本.3.2規劃安裝目錄 /opt/bigdata 1.3解壓安

大資料十二 spark叢集搭建

Spark standalone 到官網下載 spark 的安裝包,這裡使用 spark-1.6.3,hadoop版本是 2.6.5 解壓,改名為 spark-1.6.3 進入 conf 目錄下,使用如下命令 cp slaves.templa

Spark叢集搭建+基於zookeeper的高可用HA

export JAVA_HOME=/usr/java/jdk1.8.0_20/ export SCALA_HOME=/home/iespark/hadoop_program_files/scala-2.10.6/ export HADOOP_HOME=/home/iespark/hadoop_program

高可用spark叢集搭建

spark有多種模式:主要有以下幾種Standalone Deploy Mode: simplest way to deploy Spark on a private cluster Apache Mesos Hadoop YARN Kubernetes下面介紹在高可用(HA

Spark叢集搭建--節點DataNode網頁無顯示

按照網上教程搭建好Hadoop以及Spark集群后,最開始都可以正常顯示,但是有一臺節點後面系統重灌,再搭建過程出現問題,localhost:50070始終無法看到DataNode資訊,找了很多教程試了幾種方法沒有解決,Spark叢集的顯示是正常的 最後發現在

Spark叢集搭建與並驗證環境是否搭建成功(三臺機器)

在之前hadoop的基礎上,進行Spark分散式叢集: (1)下載Spark叢集需要的基本軟體,本篇需要的是:Scala-2.10.4、spark-1.4.0-bin-hadoop (2)安裝Spar

阿里雲實現Hadoop+Spark叢集

前兩篇我已經介紹瞭如何在伺服器上搭建Hadoop環境已經Hadoop叢集,接下來我將介紹一下如何在Hadoop上搭建Spark叢集。(如果你還沒看過我前兩篇blog,那麼這篇你也可以看,不過還是建議先閱讀一下前兩篇bolg:手把手教你如何使用阿里雲搭建Ha