hadoop&spark叢集搭建

阿新 • • 發佈：2019-01-27

1.準備工作

1.1 jdk下載安裝

1.2 官網下載：

scala-2.10.4.tgz（支援spark）

hadoop-2.6.0.tar.gz

spark-1.6.0-bin-hadoop2.6.tgz

1.3 準備三臺虛擬機器

centos6.3

地址：172.16.100.01，172.16.100.02，172.16.100.03，新建使用者：

useradd cluster

passwd cluster

修改三臺機器的hosts,新增內容：

[[email protected] home]# vim /etc/hosts

172.16.100.01 master
172.16.100.02 slave1
172.16.100.03 slave2

2.實現ssh無密登入

ssh-keygen -t rsa(一路回車，圖形輸出表示成功)

cd /home/cluster/.ssh下面多出兩個檔案：

私鑰檔案：id_raa

公鑰檔案：id_rsa.pub

將三臺虛擬機器的公鑰id_rsa_pub的內容放到authorized_key中：

在/home/cluster/.shh目錄下執行：

cat id_rsa.put >> authorized_keys

將authorized_keys放到另外兩臺虛擬機器下執行相同命令，最後將存入了三臺虛擬機器公鑰的authorized_keys檔案存入到三臺虛擬機器中。

修改三臺虛擬機器的authorized_keys檔案許可權，chmod 644 authorized_keys

測試ssh之間是否互通，（相互測試是否通的,很重要）

# ssh 172.16.100.02

3.hadoop叢集搭建

先在master主機上配置

1）把下載的hadoop-2.6.0.tar.gz解壓到hadoop目錄下

2)建立目錄：

mkdir -p /home/cluster/hadoop/{pids,storage}
mkdir -p /home/cluster/hadoop/storage/{hdfs,tmp}
mkdir -p /home/cluster/hadoop/storage/hdfs/{name,data}

3)配置環境變數:vim /etc/profile (也可以修改當前使用者的環境變數/home/cluster/.bashrc)

export HADOOP_HOME=/home/cluster/hadoop/hadoop-2.6.0  
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

source /etc/profile

4)修改配置檔案core-site.xml

<configuration>  
        <property>  
                <name>hadoop.tmp.dir</name>  
                <value>file:/home/cluster/hadoop/storage/tmp</value>  
        </property>  
        <property>  
                <name>fs.defaultFS</name>  
                <value>hdfs://master:9000</value>  
        </property>  
        <property>  
                <name>io.file.buffer.size</name>  
                <value>131072</value>  
        </property>
		<property>  
                <name>hadoop.proxyuser.spark.hosts</name>  
                <value>*</value>  
        </property>
		<property>  
                <name>hadoop.proxyuser.spark.groups</name>  
                <value>*</value>  
        </property>
		<property>  
                <name>hadoop.native.lib</name>  
                <value>true</value>  
        </property>
<configuration>

5)修改配置檔案hdfs-site.xml

<configuration>  
		  <property>  
                <name>dfs.namenode.secondary.http-address</name>  
                <value>master:9001</value>  
        </property> 
        <property>  
                <name>dfs.namenode.name.dir</name>  
                <value>file:/home/cluster/hadoop/storage/hdfs/name</value>  
        </property>  
        <property>  
                <name>dfs.datanode.data.dir</name>  
                <value>file:/home/cluster/hadoop/storage/hdfs/data</value>  
        </property>  
        <property>  
                <name>dfs.replication</name>  
                <value>2</value>  
        </property>   
	    <property>  
	        <name>dfs.webhdfs.enabled</name>  
	        <value>true</value>  
	    </property>  
</configuration>

6)修改配置檔案mapred-site.xml

<configuration>  
        <property>  
                <name>mapreduce.framework.name</name>  
                <value>yarn</value>  
                <final>true</final>  
        </property>  
  
    <property>  
        <name>mapreduce.jobtracker.http.address</name>  
        <value>master:50030</value>  
    </property>  
    <property>  
        <name>mapreduce.jobhistory.address</name>  
        <value>master:10020</value>  
    </property>  
    <property>  
        <name>mapreduce.jobhistory.webapp.address</name>  
        <value>master:19888</value>  
    </property>  
        <property>  
                <name>mapred.job.tracker</name>  
                <value>http://master:9001</value>  
        </property>  
</configuration>

7)修改配置檔案yarn-site.xml

<configuration>  
 
        <property>  
                <name>yarn.resourcemanager.hostname</name>  
                <value> master</value>  
        </property>  
  
    <property>  
        <name>yarn.nodemanager.aux-services</name>  
        <value>mapreduce_shuffle</value>  
    </property>  
	 <property>  
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>  
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>  
    </property> 
    <property>  
        <name>yarn.resourcemanager.address</name>  
        <value> master:8032</value>  
    </property>  
    <property>  
        <name>yarn.resourcemanager.scheduler.address</name>  
        <value> master:8030</value>  
    </property>  
    <property>  
        <name>yarn.resourcemanager.resource-tracker.address</name>  
        <value> master:8031</value>  
    </property>  
    <property>  
        <name>yarn.resourcemanager.admin.address</name>  
        <value> master:8033</value>  
    </property>  
    <property>  
        <name>yarn.resourcemanager.webapp.address</name>  
        <value> master:8088</value>  
    </property>  
</configuration>

8)vim hadoop-env.sh 和yarn-env.sh 在開頭新增如下環境變數(一定要新增切勿少了)

export JAVA_HOME=jdk路徑

9)配置slave

master
slave1
slave2

10)將整個hadoop資料夾複製到其他兩臺虛擬機器下 scp命令：

scp -r hadoop 127.16.100.02:/home/cluster
scp -r hadoop 127.16.100.03:/home/cluster

並配置環境變數，關閉防火牆 service iptables stop

11)驗證

在hadoop目錄下執行
bin/hdfs namenode –format （只執行一次）
sbin/start-dfs.sh     #啟動HDFS
sbin/stop-dfs.sh     #停止HDFS
sbin/start-all.sh或者stop-all.sh
jps命令驗證


HDFS管理頁面http://10.10.4.124:50070

4.scala安裝

1）解壓將下載的scala-2.10.4.tgz解壓在/home/cluster/scala中2)新增環境變數，並執行source /etc/profile使之生效

3）驗證，直接輸入scala

4）其他兩臺虛擬機器重複操作

5.spark安裝

1）解壓

將解壓的spark-1.6.0-bin-hadoop2.6.tgz解壓在/home/cluster/spark中（tar命令）

修改名字：mv spark-1.6.0-bin-hadoop2.6 spark

2）新增環境變數

export SPARK_HOME=/home/cluster/spark/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

3)修改/home/cluster/spark/spark/conf目錄下：spark-env.sh

mv spark-env.sh.template spark-env.sh

新增環境變數：

4） mv log4j.properties.template log4j.properties

5）mv slaves.template slaves

編輯內容：

master
slave01
slave02

6）修改相關目錄許可權，否則無法啟動

chmod -R 777 spark

7）其他兩臺虛擬機器重複操作

8）啟動spark和關閉叢集

/home/cluster/spark/spark/sbin/start-all.sh

/home/cluster/spark/spark/sbin/stop-all.sh

jps命令檢視啟動程序情況

監控頁面：主機ip：8080

hadoop&spark叢集搭建

1.準備工作1.1 jdk下載安裝1.2 官網下載：scala-2.10.4.tgz（支援spark）hadoop-2.6.0.tar.gzspark-1.6.0-bin-hadoop2.6.tgz1.3 準備三臺虛擬機器centos6.3地址：172.16.100.01，1

hadoop及spark叢集搭建後續

問題1：檢視 jps，裡面只有HQuorumPeer，沒有 HRegionServer 檢視logs，master rejected startup because clock is out of sync 原因：幾臺機器時間對不上解決方法：將有問題機器的時間校正 date -s

Hadoop及spark叢集搭建踩過的坑

本叢集總共有三臺主機，一臺master，兩臺slave Hadoop有一個節點無法啟動在按照教程子雨大資料之Spark入門教程(Python版)搭建Hadoop叢集時，執行jps命令，發現master和其中一個slave能正常工作，執行./bin/yarn node -lis

安裝Spark+hadoop，spark、hadoop分散式叢集搭建...(親自搭建過！！)

首先說一下我所用的版本： spark-2.1.1-bin-hadoop2.7.tgz hadoop-2.7.3.tar.gz jdk-8u131-linux-x64.rpm 我們實驗室有4臺伺服器：每個節點硬碟：300GB，記憶體：64GB。四個

spark叢集搭建（Hadoop、Scala）

1.從官網下載hadoop、spark、scala 我的版本： hadoop-2.7.3.tar.gz scala-2.11.8.tgz spark-2.1.0-bin-hadoop2.7.tgz （注意：spark版本要與scala 版本相互對應） 2.配置host檔案

大數據學習系列之六 ----- Hadoop+Spark環境搭建

csdn jdk sts htm ps命令 sta cnblogs 環境變量設置 lib 引言在上一篇中大數據學習系列之五 ----- Hive整合HBase圖文詳解： http://www.panchengming.com/2017/12/18/pancm62/

Hadoop 分散式叢集搭建

1 修改配置檔案 1.1 hadoop-env.sh export JAVA_HOME=/usr/apps/jdk1.8.0_181-amd64 1.2 core-site.xml <property> <name>fs.def

大資料：spark叢集搭建

建立spark使用者組，組ID1000 groupadd -g 1000 spark 在spark使用者組下建立使用者ID 2000的spark使用者獲取視訊中文件資料及完整視訊的夥伴請加QQ群：947967114useradd -u 2000 -g spark spark 設定密碼 passwd

Spark學習記錄（二）Spark叢集搭建

Hadoop Spark叢集搭建，以及IDEA遠端除錯環境：Hadoop-2.7.2 jdk-1.8 scala-2-11-12 spark-2.1.0 spark2.0.0開始，只支援Java8版本了，

vmware centos hadoop分散式叢集搭建粗略筆記

初始設定：虛擬了三個CentOs系統（安裝CentOs的步驟省略），一臺master 兩臺slave，使用者名稱全部為hadoop，具體如下（除了第一步使用root使用者操作，其他均使用hadoop使用者）： 1.新增hadoop使用者第一步：grou

Centos 7下Hadoop分散式叢集搭建

一、關閉防火牆（直接用root使用者） #關閉防火牆 sudo systemctl stop firewalld.service #關閉開機啟動 sudo systemctl disable firewalld.service 二、修改每臺主機

Hadoop分散式叢集搭建方法（Version： java 1.8+CentOS 6.3）

夏天小廚前言大資料這個概念，說的通俗點就是對海量資料的處理分析。據不完全統計，世界百分之九十的資料都由近幾年產生，且不說海量資料的ETL，單從資料的儲存和資料展現的實時性，傳統的單機就已經無法滿足實際場景的需要例如很多OLAP系統。由此引出了Hadoop，Hadoop

VMware NAT模式連線hadoop/spark叢集

VMware的網路模式一直不好配置，參考了很多教程也講得不是很清晰，於是自己折騰了很久終於整理出一個清晰的版本供大家參考。配置坑爹的vm網路配置說明： vm三個虛擬網絡卡對應三種網路模式 1.Vmnet0 橋接模式：虛擬機器和主機ip在同一個網段，虛擬機器擁有獨立的i

Spark叢集搭建

1.1下載spark安裝包下載地址spark官網：http://spark.apache.org/downloads.html 這裡我們使用spark-2.0.2-bin-hadoop2.7版本.3.2規劃安裝目錄 /opt/bigdata 1.3解壓安

大資料十二 spark叢集搭建

Spark standalone 到官網下載 spark 的安裝包，這裡使用 spark-1.6.3，hadoop版本是 2.6.5 解壓，改名為 spark-1.6.3 進入 conf 目錄下，使用如下命令 cp slaves.templa

Spark叢集搭建+基於zookeeper的高可用HA

export JAVA_HOME=/usr/java/jdk1.8.0_20/ export SCALA_HOME=/home/iespark/hadoop_program_files/scala-2.10.6/ export HADOOP_HOME=/home/iespark/hadoop_program

高可用spark叢集搭建

spark有多種模式：主要有以下幾種Standalone Deploy Mode: simplest way to deploy Spark on a private cluster Apache Mesos Hadoop YARN Kubernetes下面介紹在高可用（HA

Spark叢集搭建--節點DataNode網頁無顯示

按照網上教程搭建好Hadoop以及Spark集群后，最開始都可以正常顯示，但是有一臺節點後面系統重灌，再搭建過程出現問題，localhost:50070始終無法看到DataNode資訊，找了很多教程試了幾種方法沒有解決，Spark叢集的顯示是正常的最後發現在

Spark叢集搭建與並驗證環境是否搭建成功(三臺機器)

在之前hadoop的基礎上，進行Spark分散式叢集： (1)下載Spark叢集需要的基本軟體，本篇需要的是：Scala-2.10.4、spark-1.4.0-bin-hadoop (2)安裝Spar

阿里雲實現Hadoop+Spark叢集

前兩篇我已經介紹瞭如何在伺服器上搭建Hadoop環境已經Hadoop叢集，接下來我將介紹一下如何在Hadoop上搭建Spark叢集。（如果你還沒看過我前兩篇blog，那麼這篇你也可以看，不過還是建議先閱讀一下前兩篇bolg：手把手教你如何使用阿里雲搭建Ha

hadoop&spark叢集搭建

1.準備工作

1.1 jdk下載安裝

1.2 官網下載：

1.3 準備三臺虛擬機器

2.實現ssh無密登入

3.hadoop叢集搭建

4.scala安裝

5.spark安裝

相關推薦