1. 程式人生 > >spark安裝簡要指南

spark安裝簡要指南

這裡記錄一下spark安裝的步驟。

首先安裝好hadoop,然後下載spark on hadoop,解壓縮到namenode上。將spark-2.1.1-bin-hadoop2.7/conf/spark-env.sh.template改為spark-env.sh,然後新增:

export JAVA_HOME =/usr/java/jdk1.8.0_66
export HADOOP_HOME =/root/hadoop-2.8.0
export HADOOP_CONF_DIR =$HADOOP_HOME/etc/hadoop
export SPARK_HOME = /root/spark-2.3.1-bin-hadoop2.7
export SPARK_MASTER_IP =namenode
export SPARK_EXECUTOR_MEMORY =4G

然後將spark拷貝到各個節點,真的是簡單到不行。
在namenode的sbin目錄下使用如下命令來啟動python環境的spark,引數根據自己叢集的情況進行修改。

pyspark --master yarn --deploy-mode client --num-executors 10 --driver-memory 8g --executor-memory 16g --executor-cores 4 --conf “spark.driver.host=namenode”

可以使用8080檢視spark叢集情況,用4040檢視spark任務。
為了方便使用,可以修改/etc/profile:

export HADOOP_HOME=/root/hadoop-2.8.0
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export SPARK_HOME=/root/spark-2.3.1-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH