1. 程式人生 > >spark2.10安裝部署(集成hadoop2.7+)

spark2.10安裝部署(集成hadoop2.7+)

use star temp 保存 local export per home hadoop

這裏默認你的hadoop是已經安裝好的,master是node1,slaver是node2-3,hdfs啟動在node1,yarn啟動在node2,如果沒安裝好hadoop可以看我前面的文章

因為這裏是spark和hadoop集成,我已經預先啟動好了hdfs 和 yarn;MapReduce History Server也是需要啟動的,詳情往下看

Spark安裝包:概述

類別
  與Hadoop打包在一起的安裝包
  ? 比如:spark-2.1.0-bin-hadoop2.7.tgz,spark版本為2.1.0,與hadoop 2.7.0集成
  獨立安裝包
    ? spark-2.1.0-bin-without-hadoop.tgz
下載地址
  http://spark.apache.org/downloads.html

Spark安裝包:conf目錄

spark-default.conf

  可將spark-defaults.conf.template重命名後產生

  以key/value方式設置spark應用程序的默認參數,這裏寫上默認的參數,就省去了在命令行裏寫一堆參數

spark-env.sh

  可將spark-env.sh.template重命名後產生

  是一個shell文件,保存了spark的運行環境,比如hadoop配置文件所在路徑

Spark安裝部署1:基本配置

主要任務

1、修改conf目錄下的spark-defaults.conf和spark-env.sh

2、配置並啟動spark history server

spark-defaults.conf配置

spark.master=local

spark-env.sh配置

export HADOOP_CONF_DIR=/home/orco/resources/hadoop-2.7.3/etc/hadoop

Spark安裝部署2:spark historyserver配置與啟動

找一臺節點部署spark history server,比如我用的是node2

在Hadoop配置文件yarn-site.xml增加以下配置

<property>
        <name>yarn.log-aggregation-enable</name>
        <value>true
</value> </property> <property> <name>yarn.log.server.url</name> <value>http://node2:19888/jobhistory/logs</value> </property> <property> <name>yarn.nodemanager.pmem-check-enabled</name> <value>false</value> </property> <property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property>

在Hadoop配置文件mapred-site.xml增加以下配置

<property>
<name>mapreduce.jobhistory.done-dir</name>
<value>/user/history/done</value>
</property>
<property>
<name>mapreduce.jobhistory.intermediate-done-dir</name>
<value>/user/history/done_intermediate</value>
</property>

在所有節點上應用同樣的修改,啟動Yarn

/home/orco/resources/hadoop-2.7.3/sbin/start-yarn.sh

在node2節點上啟動mapreduce history server

sbin/mr-jobhistory-daemon.sh start historyserver

在瀏覽器中打開

http://node2:19888

配置完了必要的hadoop,接下來配置spark

修改conf/spark-defaults.conf ,增加以下配置

spark.yarn.historyServer.address=node2:18080
spark.history.ui.port=18080
spark.eventLog.enabled=true
spark.eventLog.dir=hdfs:///tmp/spark/events
spark.history.fs.logDirectory=hdfs:///tmp/spark/events

在HDFS上創建以上目錄

hdfs dfs -mkdir -p /tmp/spark/events

啟動Spark history server

sbin/start-history-server.sh

Spark History server地址

http://node2:18080/

下篇文字會介紹配置文件為什麽那樣配,即日誌那塊的東西

spark2.10安裝部署(集成hadoop2.7+)