1. 程式人生 > >spark2.2.0偽分布式

spark2.2.0偽分布式

執行 .sh work export pan exp source p地址 全分布式

環境:

  hadoop2.6.0

  jdk1.8

  ubuntu 14.04 64位

1 安裝scala環境

版本是scala-2.10.6,官網下載地址http://www.scala-lang.org/download/

ps:這裏最好用jdk1.8配合這個scala版本,不然可能會報錯,不過我看有些大神的jdk1.7也沒有報錯,不過建議jdk1.8

然後配置scala的環境變量:sudo vim /etc/profile

export SCALA_HOME=/usr/scala/scala-2.10.6
export PATH=$PATH:$SCALA_HOME/bin

執行命令source /etc/profile 讓環境變量生效

scala檢測:在任意目錄執行scala -version,結果如下:

技術分享

2 spark配置

首先下載spark的壓縮包,官網下載地址http://spark.apache.org/downloads.html

技術分享

按照上圖所示選取,然後下載spark-2.2.0-bin-hadoop2.6.tgz壓縮包

解壓到安裝目錄下,比如我是解壓到/usr/local目錄下,並且重命名為spark

進入spark/conf目錄,把 spark-env.sh.template文件復制並且重命名為 spark-env.sh,並且在文件末尾加上如下配置

export JAVA_HOME=/usr/java/jdk1.8.0_141
export SCALA_HOME
=/usr/scala/scala-2.10.6 export SPARK_MASTER_IP=master export SPARK_WORKER_CORES=2 export SPARK_WORKER_MEMORY=1g export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

其中export SPARK_MASTER_IP是指master的ip,由於我是偽分布式搭建,ip就是本機,而我在hosts中配置過本機ip為master

然後把 slaves.template文件復制重命名為slaves,文件的默認內容是localhost,把localhost刪除,並添加內容master

(如果是完全分布式,就要把每個salve中的spark-env.sh文件中的SPARK_MASTER_IP參數改成master的ip,把master和每個slave上的slaves文件內容寫成每一行一個slave的ip地址)

以上就完成了,然後進行再打開hadoop的dfs和yarn的服務後,再spark的目錄下,執行sbin/start-all.sh,就啟動spark進程了,然後執行jps查看,如下圖,多了Master和Worker兩個進程,就說明ok了。

技術分享

spark2.2.0偽分布式