1. 程式人生 > >Spark單機與叢集安裝與簡單命令列使用

Spark單機與叢集安裝與簡單命令列使用

參考自書籍《Hadoop+Spark 大資料巨量分析與機器學習》

環境依賴:

jdk 1.7

scala 2.11.6

spark 2.1.2

1 安裝scala

$ wget https://www.scala-lang.org/files/archive/scala-2.11.6.tgz

$ tar xvf scala-2.11.6.tgz

$ sudo mv scala-2.11.6 /usr/local/scala

//新增scala環境變數

$ vim ~/.bashrc  //新增如下內容

#SCALA

export SCALA_HOME=/usr/local/scala

export PATH=$PATH:$SCALA_HOME/bin

$ source ~/.bashrc  //使其生效

2 測試scala

$ scala

3 安裝Spark

檢視hadoop版本

$ hadoop version  //我這裡是2.8.4   

選擇對應版本安裝spark(下載官網)

$ wget https://archive.apache.org/dist/spark/spark-2.1.2/spark-2.1.2-bin-hadoop2.7.tgz

$ tar zxf spark-2.1.2-bin-hadoop2.7.tgz

$ sudo mv spark-2.1.2-bin-hadoop2.7 /usr/local/spark

//新增spark環境變數

$ vim ~/.bashrc  //新增如下內容

#SPARK

export SPARK_HOME=/usr/local/spark

export PATH=$PATH:$SPARK_HOME/bin

$ source ~/.bashrc  //使其生效

4 啟動spark-shell互動介面

$ spark-shell

5 設定spark-shell顯示資訊

$ cd /usr/local/spark/conf

$ cp log4j.properties.template log4j.properties

$ sudo vim log4j.properties

將log4j.rootCategory=INFO 改為 WARN

$ spark-shell   //然後就發現現實的東西少了很多,沒這麼礙眼

6 啟動hadoop然後本地執行spark-shell

讀取HDFS檔案

> val textFile=sc.textFile("hdfs://192.168.80.100:9000/user/hduser/wordcount/input/LICENSE.txt")      //這裡ip是對應master,可見hadoop core-site.xml配置

> textFile.count

7 Hadoop YARN執行spark-shell

$ SPARK_JAR=/usr/local/spark/yarn/spark-2.1.2-yarn-shuffle.jar HADOOP_CONF_DIR=/home/hadoop/hadoop/etc/hadoop MASTER=yarn-client /usr/local/spark/bin/spark-shell

然後可見下面scala>提示符

讀取本地檔案

scala>

> val textFile=sc.textFile("file:/home/hadoop/hadoop/LICENSE.txt");

> textFile.count

讀取hdfs檔案

> val textFile=sc.textFile("hdfs://192.168.80.100:9000/user/hduser/wordcount/input/LICENSE.txt")      //這裡ip是對應master,可見hadoop core-site.xml配置

> textFile.count

然後訪問:http://192.168.80.100:8088/cluster/apps,顯示如下(192.168.80.100是hadoop的master的伺服器ip)

8 構建Spark Standalone Cluster執行環境

//在master虛擬機器中設定spark-env.sh

$ cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh

$  sudo vim /usr/local/spark/conf/spark-env.sh   //新增如下內容

export SPARK_MASTER_IP=192.168.80.100 #設定master的ip或伺服器名稱  這裡對應hosts中的master

export SPARK_WORKER_CORES=1     #設定每個worker使用的cpu核心

export SPARK_WORKER_MEMORY=500m   #設定每個worker使用記憶體  --800m推薦

export SPARK_WORKER_INSTANCES=2  #設定多個worker例項

然後拷貝到對應的hadoop slave伺服器

$ ssh 192.168.80.101   //slave1伺服器

$ sudo mkdir /usr/local/spark

$ sudo chown hadoop:hadoop /usr/local/spark

$ exit;

//退出後回到master伺服器

$ sudo scp -r /usr/local/spark [email protected]:/usr/local  //遠端拷貝spark到slave伺服器

$ cp /usr/local/spark/conf/slaves.template /usr/local/spark/conf/slaves

$ vim /usr/local/spark/conf/slaves  //編輯並新增你的slave伺服器ip

192.168.80.101

在spark standalone執行spark-shell

$ /usr/local/spark/sbin/start-all.sh  //然後就可以看到啟動了1個master、2個worker

$ /usr/local/spark/sbin/start-master.sh -h 192.168.80.100

$ /usr/local/spark/sbin/start-slave.sh spark://192.168.80.100:7077

-------------以下是可不操作命令------------------

$ /usr/local/spark/sbin/start-master.sh   //啟動master服務

$ /usr/local/spark/sbin/start-slaves.sh   //啟動slaves服務

$ /usr/local/spark/sbin/stop-all.sh   //停止所有服務

為什麼是兩個ip192.168.80.101的worker,衛視在spark-env.sh設定了SPARK_WORKER4_INSTANCES=2,所以一個從伺服器會產生兩個例項。

在spark standalone中執行spark-shell程式

$ spark-shell --master spark://192.168.80.100:7077

然後開啟web輸入 http://192.168.80.100:8080可見如下:

相關推薦

Spark單機叢集安裝簡單命令使用

參考自書籍《Hadoop+Spark 大資料巨量分析與機器學習》 環境依賴: jdk 1.7 scala 2.11.6 spark 2.1.2 1 安裝scala $ wget https://www.scala-lang.org/files/archiv

對於mongodb在linux上的的安裝與其簡單命令操作的學習回顧

    今天培訓主要學習了MongoDB的安裝與簡單操作以及關於NoSQL的一點概念性的知識,在此對所操作的MongoDB命令進行簡單回顧 1.MongoDB的安裝 與網上的教程無太多出入,Linux系統下直接通過終端輸入命令列 sudo apt-get install m

Kubernetes學習系列之簡單叢集安裝配置

環境配置 CentOS Linux release 7.3.1611 (Core)  etcd-v3.2.6 docker-ce-17.03.2.ce kubernetes-v1.6.9 192.168.108.128 節點1 192.168.108.129 節點2 19

spark叢集安裝配置

Spark有三種執行模式,分別為: local模式-只執行在本地,相當於偽分散式 standalone模式-這種模式只需要安裝Spark即可,使用自帶的資源管理器 Spark on yarn/mesos模式-這種模式Spark將使用yarn/mesos作為資源管理器 一般來

Spark 2.2.0 安裝配置

mem p s template .sh org uri 文件 圖片 with 下載Spark 解壓並移動到/software目錄: tar -zxvf spark-2.2.0-bin-without-hadoop.tgz mv spark-2.2.0-bin-withou

MySQL Galera 叢集安裝配置

galera 叢集概述與搭建 Galera replication原理 從客戶端看整體的流程 其中對應的角色分為2個:協調者和參與者 協調者: 1、 接收客戶端請求 2、 廣播請求到其他參與者(包括自己) 3、 作為參與者進行資料更新 4、 更新失敗

Linux(centos7) Elasticsearch6.5叢集安裝Kibana視覺化

必須要先安全JDK1.8或以上版本,記憶體配置1G以上,最好2G https://www.elastic.co/cn/downloads/elasticsearch#ga-release  官網下載tar 上傳到linux 解壓 tar -zxvf elasticsearch-

redis3.0.0 叢集安裝整理總結

叢集搭建 http://blog.csdn.net/xu470438000/article/details/42971091 redis window安裝與使用 遠端連線 1)  預設無許可權控制: 遠端服務連線: $ redis-cli -h 127.0.0.1

storm概述、叢集安裝簡單命令操作

http://storm.apache.org Apache Storm是一個免費的開源分散式實時計算系統。Storm可以輕鬆可靠地處理無限資料流,實現Hadoop對批處理所做的實時處理。Storm非常簡單,可以與任何程式語言一起使用,並且使用起 來很有趣! Storm有許多用例:實時分析,

ZooKeeper叢集安裝配置(ZooKeeper3.4.6)

環境 同時需要在/etc/profile檔案中增加 export JAVA_HOME=/usr/java/jdk1.8.0_65 export CLASSPATH=.:$JAVA_HOM

Redis單機多實體安裝主從配置

上一篇文章講解了Centos上的redis安裝。 現在我們來說一下redis單機多例項的安裝 首先關閉redis 根據上一篇redis的安裝的配置檔案位置 首先我們複製redis 的配置檔案 cp/etc/redis/6379.conf /etc/redis

Linux-7.2 下 Solr4.10.4 單機模式的安裝部署圖文詳解

《 Linux下Solr4.10.4搜尋引擎的安裝與部署 》 瞭解Solr: Solr是來自Apache Lucene專案的流行的,快速的,開源的NoSQL搜尋平臺。它的主要功能包括強大

Storm 單機環境的安裝配置

好久沒寫部落格了,這一段時間一直被導師push著做畢業設計。由於目前的方向偏向於影象識別檢索,畢設打算做一個基於分散式計算平臺的影象檢索系統,查閱相關資料發現Hadoop不適用於實時的計算環境,而Twitter Storm卻能夠滿足自己的需求。我花了大概3~4天的時間,才

spark history server叢集配置使用(解決執行spark任務之後沒有顯示的問題)

在你的spark路徑的conf檔案中,cp拷貝spark-defaults.conf.template為spark-defaults.conf 並在檔案後面加上 spark.eventLog.enabled           true spark.eventLog.di

Kafka_2.10-0.10.0.0叢集安裝配置

     上文已經講過如何安裝Zookeeper叢集,因為Kafka叢集需要依賴Zookeeper服務,雖然Kafka有內建Zookeeper,但是還是建議獨立安裝Zookeeper叢集服務,此處不再贅述      kafka叢集還是安裝在10.10.16.170  、

kafka叢集安裝使用

kafaka中的名詞: Broker:安裝kafka服務大那臺機器就是一個broker (id要唯一) Producer:訊息的生產者,負責將資料寫入到broker中(push) Consumer:訊息的消費者,負責從kafka中讀取資料(pull),老版本 的消費者依賴zk,新

19 大資料hbase-叢集安裝常見問題解決

首先說明,要使用hbase是需要先安裝hadoop和zookeeper的(也可以使用自帶的但是不建議),參考[zookeeper叢集安裝] [hadoop叢集安裝] 我用的是三臺機器,mini1,mini2,mini3 Hbase的安裝流程 1、將hbase上傳到hadoop叢集,我這裡上傳的是

hadoop 叢集安裝部署(大資料系列)

什麼是大資料 基本概念 《資料處理》 在網際網路技術發展到現今階段,大量日常、工作等事務產生的資料都已經資訊化,人類產生的資料量相比以前有了爆炸式的增長,以前的傳統的資料處理技術已經無法勝任,需求催生技術,一套用來處理海量資料的軟體工具應運而生,這就是大資料!

zookeeper-3.4.8單機主從安裝配置

ZooKeeper is a centralized service for maintaining configuration information, naming, providing distributed synchronization, and providin

Hadoop本地模式、偽分散式和全分散式叢集安裝部署

<link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/