怎麼在本地安裝Spark,這裡就不再描述了。

    List-1

#在SPARK_HOME/conf下
>cp slaves.template slaves
#之後在slaves裡面寫入hostname,如下
>more slaves
mjduan-host


>cp spark-env.sh.template spark-env.sh
#修改spark-env.sh,寫入如下內容,SPARK_MASTER_IP寫mjduan-host
>more spark-env.sh 
export JAVA_HOME=/opt/software/tool/jdk1.8
export HADOOP_HOME=/opt/software/docker/hadoop/hadoop-2.7.7
export SCALA_HOME=/opt/software/tool/scala2.12
export HADOOP_CONF_DIR=/opt/software/docker/hadoop/hadoop-2.7.7/etc/hadoop
export SPARK_MASTER_IP=mjduan-host
export SPARK_WORKER_MEMORY=2048M


    之後進入$SPARK_HOME/sbin下,執行start-all.sh,可以看下是否啟動成功,之後去看localhost:8080,可以看到spark的介面。

    jps命令可以看到有個Master和Worker。

    注意,啟動Spark是可以啟動的,但是如果往Spark上提交程式,Spark預設會從hdfs讀取資料,而不是本地。所以要安裝好HADOOP,安裝Hadoop的時候,帶上了hdfs、yarn都安裝好了。

    給Spark提交任務,master後面的URL,如果不知道,可以從日誌中看到或者Spark UI介面中看到。

    List-2

spark-submit  --class com.mjduan.project.SimpleApp  --master spark://mjduan-host:7077  Spark-helloworld.jar

    安裝Hadoop-2.7,Hive-2.3,參考: https://blog.csdn.net/u013332124/article/details/85223496 ,左邊安裝Hadoop的教程裡面,沒有設定yarn,要配置yarn,不然在hive命令列中進入insert時會報錯,配置yarn參考: https://blog.csdn.net/linbo_18874208784/article/details/74178236,在安裝Hive時,報使用者無法訪問hive,要修改hive的配置檔案,參考: https://stackoverflow.com/questions/40603714/hive-is-not-allowed-to-impersonate-hive

    Spark偽分散式的安裝,參考: https://blog.csdn.net/zhihaoma/article/details/52296645<