Spark1.5.2 on Hadoop2.4.0 安裝配置

阿新 • • 發佈：2018-11-22

一、前言

本文簡單介紹yarn安裝，主要介紹spark1.5.2on yarn模式安裝，僅供參考。

二、 yarn配置

1. yarne.xml

yarne.xml需要新增的配置如下：

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle,spark_shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.spark_shuffle.class</name>

<value>org.apache.spark.network.yarn.YarnShuffleService</value>

</property>

如果配置了yarn.log-aggregation-enable，一定要設定yarn.log.server.url，不然spark歷史任務無法檢視：

<name>yarn.log-aggregation-enable</name>

</property>

<name>yarn.log.server.url</name>

<value>http://namenode1:19888/jobhistory/logs</value>

</property>

2. spark-1.5.2-yarn-shuffle.jar

將spark-1.5.2-yarn-shuffle.jar拷貝所有nodemanager的classpath下面：

3. 重啟所有nodemanager

三、 Spark

1. 安裝hadoop 客戶端

新增如下內容到.bashrc

JAVA_HOME=/home/spark/software/java

HADOOP_HOME=/home/bigdata/software/hadoop

SPARK_HOME=/home/spark/software/spark

R_HOME=/home/spark/software/R

PATH=$R_HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

export LANG JAVA_HOME HADOOP_HOME SPARK_HOME HIVE_HOME R_HOME PATH CLASSPATH

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export YARN_CONF_DIR=/home/yarn/software/hadoop/etc/hadoop

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$HADOOP_COMMON_LIB_NATIVE_DIR

export PATH="/home/spark/software/anaconda/bin:$PATH"

export HADOOP_COMMON_LIB_NATIVE_DIR=/home/bigdata/software/hadoop/lib/native/Linux-amd64-64

export HADOOP_CLIENT_OPTS="-Djava.library.path=$HADOOP_COMMON_LIB_NATIVE_DIR"

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$HADOOP_COMMON_LIB_NATIVE_DIR

2. 配置spark-defaults.conf

# This is useful for setting default environmental settings.

spark.serializer org.apache.spark.serializer.KryoSerializer

spark.eventLog.enabled true

#spark.eventLog.dir hdfs://SuningHadoop2/sparklogs/sparklogs1.4.0

spark.eventLog.dir hdfs:///sparklogs/sparklogshistorylogpre

spark.driver.cores 1

spark.driver.memory 4096m

# Tuning parameters

spark.shuffle.consolidateFiles true

spark.sql.shuffle.partitions 40

spark.default.parallelism 20

#spark.cores.max 2

spark.shuffle.consolidateFiles true

[[email protected] conf]$ vim spark-defaults.conf

# Default system properties included when running spark-submit.

# This is useful for setting default environmental settings.

# Example:

# spark.master spark://master:7077

# spark.eventLog.enabled true

# spark.eventLog.dir hdfs://namenode:8021/directory

spark.serializer org.apache.spark.serializer.KryoSerializer

# spark.driver.memory 5g

# spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"

spark.eventLog.enabled true

spark.eventLog.dir hdfs:///sparklogs/sparklogshistorylogpre

spark.driver.cores 1

spark.driver.memory 4096m

# Tuning parameters

spark.shuffle.consolidateFiles true

spark.sql.shuffle.partitions 40

spark.default.parallelism 20

spark.shuffle.consolidateFiles true

3. 配置spark-env.sh

export SPARK_LOCAL_DIRS=/data/spark/sparkLocalDir

export HADOOP_CONF_DIR=/home/bigdata/software/hadoop/etc/hadoop

export SPARK_LIBRARY_PATH=$SPARK_LIBRARY_PATH:/home/bigdata/software/hadoop/lib/native/Linux-amd64-64/

export SPARK_HISTORY_OPTS="-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/home/spark/spark/logs/historyserver.hprof -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCDateStamps -Xloggc:/home/spark/spark/logs/historyserver.gc.log -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=5 -XX:GCLogFileSize=512M -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=19229 -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.authenticate=false -Dspark.history.fs.logDirectory=hdfs://SuningHadoop2/sparklogs/sparklogshistorylogpre -Dspark.history.ui.port=8078

4. 啟動HistoryServer

start-history-server.sh

四、測試指令碼

yarnmode=yarn-cluster

mytime=`date '+%s'`

datasizeG=100G

inputfiles=/user/spark/TeraGen$mytime

outputfiles=/user/spark/TeraSort$mytime

Validatefiles=/user/spark/TeraValidate$mytime

numexecutors=20

executormemory=8G

export HADOOP_USER_NAME=spark

sparkqueue=spark

sparkconf="spark.default.parallelism=2000"

classTeraGen=com.github.ehiggs.spark.terasort.TeraGen

classTeraSort=com.github.ehiggs.spark.terasort.TeraSort

classTeraValidate=com.github.ehiggs.spark.terasort.TeraValidate

sourcejar=/home/spark/workspace/tersort/spark-terasort-1.0-SNAPSHOT-jar-with-dependencies.jar

spark-submit --master $yarnmode \

--supervise \

--num-executors $numexecutors \

--executor-memory $executormemory \

--queue $sparkqueue \

--conf $sparkconf \

--class $classTeraGen $sourcejar $datasizeG $inputfiles

beginTime=`date '+%s'`

spark-submit --master $yarnmode \

--supervise \

--queue $sparkqueue \

--executor-memory $executormemory \

--num-executors $numexecutors \

--conf $sparkconf --class $classTeraSort $sourcejar $inputfiles $outputfiles

endTime=`date '+%s'`

speadtime=$((endTime-beginTime))

spark-submit --master $yarnmode \

--supervise \

--executor-memory $executormemory \

--queue $sparkqueue \

--num-executors $numexecutors \

--conf $sparkconf \

--class $classTeraValidate $sourcejar $outputfiles $classTeraValidate

echo times:$speadtime

hadoop fs -rm -r $inputfiles

hadoop fs -rm -r $outputfiles

hadoop fs -rm -r $Validatefiles

Spark1.5.2 on Hadoop2.4.0 安裝配置

一、前言

二、 yarn配置

1. yarne.xml

2. spark-1.5.2-yarn-shuffle.jar

3. 重啟所有nodemanager

三、 Spark

1. 安裝hadoop 客戶端

2. 配置spark-defaults.conf

3. 配置spark-env.sh

4. 啟動HistoryServer

四、測試指令碼

Spark1.5.2 on Hadoop2.4.0 安裝配置

Zabbix 4.0 安裝配置

MonoDevelop 4.2.2/Mono 3.4.0 in CentOS 6.5 安裝筆記

R3.4.0安裝包時報錯“需要TRUE/FALSE值的地方不可以用缺少值”，需升級到R3.5.0

windows下 hadoop2.4.0 eclipse 外掛安裝及配置

一、Ubuntu14.04下安裝Hadoop2.4.0 （單機模式）

hadoop-2.6.0.tar.gz + spark-1.5.2-bin-hadoop2.6.tgz的叢集搭建（單節點）（Ubuntu系統）

1.關於安裝Microsoft .NET Framework 4.5\ 4.0 安裝不了的解決辦法

Zabbix 2.4.0 安裝、配置

CentOS7.0安裝配置hadoop2.7.0 資源準備資源下載： hadoop-2.7.0.tar.gz 密碼：727y jdk-8u45-linux-x64.tar.gz 密碼：d8bm

Ubuntu 14.04 64bit下Caffe + Cuda6.5/Cuda7.0 安裝配置教程

.net framework 4.0 安裝失敗解決辦法

ELK2.4.0安裝部署

Hadoop2.9.0安裝

ranger0.5.4-開源安裝配置

linu環境安裝elasticseach6.4.0安裝部署

Spark 1.5.2 on yarn升級問題總結

在centos7基於hadoop2.8.0安裝hive2.1.1注意點

linux ubuntu 下 mongodb 4.0 安裝和配置遠端連線

Source Insight 4.0安裝及其破解

Spark1.5.2 on Hadoop2.4.0 安裝配置

一、 前言

二、 yarn配置

1. yarne.xml

2. spark-1.5.2-yarn-shuffle.jar

3. 重啟所有nodemanager

三、 Spark

1. 安裝hadoop 客戶端

2. 配置spark-defaults.conf

3. 配置spark-env.sh

4. 啟動HistoryServer

四、 測試指令碼

相關推薦

一、前言

四、測試指令碼