Spark 2.4 之 standalone 叢集搭建

阿新 • • 發佈：2019-01-09

本文參考官方文件： http://spark.apache.org/docs/latest/spark-standalone.html

1.預先搭建3臺hadoop 的叢集

SERVER INFO	version
192.168.1.10	RHL6.8 & Hadoop 2.7.3
192.168.1.11	RHL6.8 & Hadoop 2.7.3
192.168.1.12	RHL6.8 & Hadoop 2.7.3

2. 在所有節點中安裝spark

此處可以參考 https://blog.csdn.net/chenxu_0209/article/details/84948302

3. 配置各個節點之間的SSH key

生成RSA KEY

[[email protected] ~]$  ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/home/spark/.ssh/id_rsa): 
Enter passphrase (empty for no passphrase) 
: 
Enter same passphrase again: 
Your identification has been saved in /home/spark/.ssh/id_rsa.
Your public key has been saved in /home/spark/.ssh/id_rsa.pub.
The key fingerprint is:
65:34:15:20:57:35:cf:c7:bf:8b:1c:94:46:d4:7f:34 [email protected]
The key's randomart image is:
+--[ RSA 2048]----+
|        . 
 =++++  |
|         + ..  E.|
|          o  . .B|
|         o  . . =|
|        S    +  o|
|            o   .|
|             . . |
|            . o .|
|             o . |
+-----------------+

將生成的RSA key 拷貝到 ~/.ssh/authorized_keys 儲存到每個節點中

***注意authorized_keys這個檔案不要手動建立拷貝id_rsa.pub 即可

[[email protected] .ssh]$ vi authorized_keys
ssh-rsa AAAAB3NzaC1yc2EAAAABIwAAAQEA1EYdPds/v/1Qh8w5tBlpUcWMJJVBlBTzZK3Q/OhqGERdKmUu+9qw29VRB9+wtYX1vPl+t02zIGIYfZ8IjCaO56g1xc34NRF7Xe+w1H3EU3k5jwzsuqS8/BDz56QCia7gIZKJJAO3Xf+U9oJcin1paSWg2FmnXFbuyNEXaPptYVyjpSUJeZZvB50gqA46VOD3h3O1fGZ+d7WZ6aK6OvTgJdMaz8m0H1yCcF5vz08jKuDpVdBZX01nL8cFDz711FifFwZTMnSG5QnimrQ3FfCcyQwkQJQSqJ76v2H+CbWW5goA77AeV9GAs0Lqkk76eOj5/A1is0Yl45y2EZey0YClww== [email protected]

ssh-rsa AAAAB3NzaC1yc2EAAAABIwAAAQEAwKotX+y0FC4byiI9ItDR0jyjD/oPQHJpbTtFg4LUyGk0v9AaMo5b9hKWrX7nc989oKLz+lQYyoTEtJJ2zQ0JwNnVp1pBciQT92BIeRunvGuWnRKV19GZfLXy8xX8cTf+YYVSfkUtCxKrFgflVInRkNn2KeIsfTIg/dLVICkBEGXs0d0JfNgJBjA/dPV+1L3GAyOT0zJj62L3gE6a+1TcORmMQepHV5UZkW2RrF8rZxHULVoK3pcdHoMYQhhzJJBl+6ZcXRFKXAAElEKlcn6z7fGTqh1pvihuxYwUcjTZYDgNgdBwobZ/H5OP0ERoOgkbGaRCdq8pQBisNc6cj76oaw== [email protected]

ssh-rsa AAAAB3NzaC1yc2EAAAABIwAAAQEA1O9CfvVCXkE+5dQvsEuRfDvSf1h9xUQhk+LOMLS1BlKdxNmwhbcCb2E06ADjtOwSzldwFnZUxKnFIOyK5vJivKSzGlcOzVByEG58DNtfxqNQTSCxRsphAl8ZZA4sF1K5tYrFYca7iSJbJmdgw95Rmixty94tn8BJT8h2oePmnYgoARythj5BLmf2D6sXXGJuDLrjE9VabgPRUfpJOIr42XsdsnNZsbxLxiMP54xgXr4kpqdhjGvKOq61vbFLmIU3Wpbt+4IPONLolK5YdcM8mvS+JpQKTGslM0dkkqhAEBlizAr58OKQp0dmI9iTiFj82xRsrgP3lY1mlxaO45R4iw== [email protected]

測試 ssh

[[email protected] .ssh]$ ssh oggserver01 date
Fri Dec 21 05:15:04 PST 2018
[[email protected] .ssh]$ ssh oggserver02 date
Fri Dec 21 05:15:06 PST 2018

4. 修改$SPARK_HOME/conf/spark-env.sh

配置master和worker 節點資訊

SPARK_MASTER_HOST=hadoop01
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080

SPARK_WORKER_CORES=2
SPARK_WORKER_MEMORY=512m
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081
SPARK_WORKER_INSTANCE=1

配置slave 節點列表

[[email protected] conf]$ mv slaves.template slaves.sh
[[email protected] conf]$ vi slaves.sh
oggserver01
oggserver02

5. 啟動master 節點

[[email protected] sbin]$ ./start-master.sh 
starting org.apache.spark.deploy.master.Master, logging to /home/spark/spark-2.4.0-bin-hadoop2.7/logs/spark-spark-org.apache.spark.deploy.master.Master-1-hadoop01.out

此時可以通過web介面訪問： http://hadoop01:8080/

注意此時worker 列表為0 ，因為尚未啟動worker

在這裡插入圖片描述

6. 啟動slave 節點

[[email protected] sbin]$ ./start-slave.sh spark://hadoop01:7077
starting org.apache.spark.deploy.worker.Worker, logging to /home/spark/spark-2.4.0-bin-hadoop2.7/logs/spark-spark-org.apache.spark.deploy.worker.Worker-1-oggserver01.out
[[email protected] sbin]$ ./start-slave.sh spark://hadoop01:7077
starting org.apache.spark.deploy.worker.Worker, logging to /home/spark/spark-2.4.0-bin-hadoop2.7/logs/spark-spark-org.apache.spark.deploy.worker.Worker-1-oggserver02.out

此時可以通過web介面檢視worker 節點列表

在這裡插入圖片描述

6. SPARK-SHELL 連線standalone cluster

[[email protected] bin]$ ./spark-shell --master spark://hadoop01:7077
2018-12-21 05:55:51 WARN  NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://hadoop01:4040
Spark context available as 'sc' (master = spark://hadoop01:7077, app id = app-20181221055610-0000).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.4.0
      /_/
         
Using Scala version 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_144)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

編寫測試程式

scala> val rdd = sc.textFile("/user/hadoop/worddir/word.txt");
rdd: org.apache.spark.rdd.RDD[String] = /user/hadoop/worddir/word.txt MapPartitionsRDD[1] at textFile at <console>:24

scala> val tupleRDD = rdd.flatMap(line => {line.split(" ")
     |         .toList.map(word => (word.trim,1))
     |     });
tupleRDD: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[2] at flatMap at <console>:25

scala> val resultRDD :org.apache.spark.rdd.RDD[(String,Int)] =tupleRDD.reduceByKey((a,b)=> a + b);
resultRDD: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[3] at reduceByKey at <console>:25

scala> resultRDD.foreach(elm => println(elm._1+"="+elm._2));

圖形介面觀察輸出

在這裡插入圖片描述

如果遇到錯誤

Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

2018-12-21 06:04:49 WARN  TaskSchedulerImpl:66 - Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

修改worker的記憶體 512m-> 1g

Spark 2.4 之 standalone 叢集搭建

本文參考官方文件： http://spark.apache.org/docs/latest/spark-standalone.html 1.預先搭建3臺hadoop 的叢集 SERVER INFO version

Spark 2.4.0 standalone 模式安裝

Spark 2.4.0 standalone 模式安裝更多資源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 官網文件 https://spark.apache.o

Spark 2.4 入門之基於Hadoop 2.7.3環境搭建

準備環境 3 臺 Linux VM Server RHL6.8 * 3 Hadoop 2.7.3 叢集環境搭建下載Spark 2.4 版本網址： https://spark.apache.org/downloads.html 映象地址 http:

centos7下Hadoop2.8.4全分佈搭建之HDFS叢集搭建（一）

1)搭建前的準備注意：（以下操作可以先配置一臺，然後通過scp命令傳送到其他兩臺虛擬機器上傳送到其他機器 scp -r 主機名: 注意:載入環境變數 source /etc/profile

adoop2.8.4全分佈搭建之HDFS叢集搭建

注意：（以下操作可以先配置一臺，然後通過scp命令傳送到其他兩臺虛擬機器上傳送到其他機器 scp -r 主機名: 注意:

Spark 2.4 standalone 部署

1 安裝 Spark 使用如下命令下載 Spark，下載地址： wget http://mirrors.hust.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz 解壓 tgz 包： tar zxvf spark-2.4.0-b

Hadoop之——Hadoop2.5.2 HA高可靠性叢集搭建(Hadoop+Zookeeper)前期準備

今天是十一長假的第三天，節前，很多朋友發來私信說，網上基於HA的Hadoop叢集，動不動就是7、8臺伺服器，甚至是10幾臺伺服器，自己的電腦Hold不住這麼多虛擬機器啊！有什麼辦法可以將伺服器縮減為3臺嗎？今天，我就為大家帶來一篇如何在3臺CentOS 虛擬機器上搭建基於

Hadoop之——Hadoop2.5.2 HA高可靠性叢集搭建(Hadoop+Zookeeper)

一、Hadoop（HA）叢集的規劃叢集規劃主機名 IP NameNode DataNode Yarn ZooKeeper JournalNode liuyazhuang145 192.168.0.145 是是否是是 liuyazhuang146 192.16

Hadoop-2.8.4版本分散式叢集搭建

Hadoop分散式叢集搭建建立虛擬機器（用VmWare工具,centos6）克隆三臺機器 master slaver1 slaver2 分別在每臺機器上安裝jdk >= 1.7版本 vim /etc/profile 四、同步三臺虛擬機器的時間（時間

Redis3.2.4 Cluster集群搭建

請求 masters 失敗 enable ren slot 解決方案 ruby 一、redis cluster安裝 1、下載和編譯安裝 cd /home/xm6f/dev wget http://download.redis.io/releases/redis-

Spark 學習筆記之 Standalone與Yarn啟動和運行時間測試

span ima 上傳運行 yarn erl 技術分享 word wordcount Standalone與Yarn啟動和運行時間測試：寫一個簡單的wordcount：打包上傳運行： Standalone啟動：運行時間：

大資料Flume系列之Flume叢集搭建

1. 概念叢集的意思是多臺機器，最少有2臺機器，一臺機器從資料來源中獲取資料，將資料傳送到另一臺機器上，然後輸出。接下來就要實現Flume叢集搭建。叢集如下圖所示。 2. Flume搭建 2.1 部署準備部署主機 192.168.9.139 host14

[Spark版本更新]--Spark-2.4.0 釋出說明

2018-11-02 Apache Spark 官方釋出了 2.4.0版本，以下是 Release Notes，供參考： Sub-task [ SPARK-6236 ] - 支援大於2G的快取塊 [ SPARK-6237 ] -

CODIS3 x叢集之儲存叢集搭建全過程

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

和我一起打造個簡單搜尋之ElasticSearch叢集搭建

我們所常見的電商搜尋如京東，搜尋頁面都會提供各種各樣的篩選條件，比如品牌、尺寸、適用季節、價格區間等，同時提供排序，比如價格排序，信譽排序，銷量排序等，方便了使用者去找到自己心裡理想的商品。站內搜尋對於一個網站幾乎是標配，只是搜尋的強大與否的區別，有的網站只支援關鍵詞模糊搜尋，而淘寶，京東提供了精細的篩選

spark-2.4.0-hadoop2.7-安裝部署

1. 主機規劃主機名稱 IP地址作業系統部署軟體執行程序備註 mini01 172.16.1.11【內網】 10.0.0.11 【外網】

spark-2.4.0-hadoop2.7-高可用(HA)安裝部署

1. 主機規劃主機名稱 IP地址作業系統部署軟體執行程序備註 mini01 172.16.1.11【內網】 10.0.0.11 【外網】

spark-2.4.0-hadoop2.7-簡單操作

1. 說明本文基於：spark-2.4.0-hadoop2.7-高可用(HA)安裝部署 2. 啟動Spark Shell 　　在任意一臺有spark的機器上執行 1 # --master spark://mini02:7077 連線spark

spark 2.4安裝

1、spark 官網選擇對應Hadoop的版本，之前安裝的Hadoop版本為hadoop-3.0.2，獲取下載包： wget http://mirrors.hust.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

Spark-2.4 Deep Learning Pipelines Image Claasifer Demo

(原文連結)-這是Spark2018 Submit 的一個演講Demo, 針對Keras圖片分類和使用Spark做分類的方法做了講解，供學習使用。文章排版不好，最好看原文。 tf_keras_dlp_sai_demo_image_classifier(Python)

Spark 2.4 之 standalone 叢集搭建

本文參考官方文件： http://spark.apache.org/docs/latest/spark-standalone.html

1.預先搭建3臺hadoop 的叢集

2. 在所有節點中安裝spark

此處可以參考 https://blog.csdn.net/chenxu_0209/article/details/84948302

3. 配置各個節點之間的SSH key

生成RSA KEY

將生成的RSA key 拷貝到 ~/.ssh/authorized_keys 儲存到每個節點中

***注意authorized_keys這個檔案不要手動建立 拷貝id_rsa.pub 即可

測試 ssh

4. 修改$SPARK_HOME/conf/spark-env.sh

配置master和worker 節點資訊

配置slave 節點列表

5. 啟動master 節點

此時可以通過web介面訪問： http://hadoop01:8080/

注意此時worker 列表為0 ，因為尚未啟動worker

6. 啟動slave 節點

此時可以通過web介面檢視worker 節點列表

6. SPARK-SHELL 連線standalone cluster

編寫測試程式

圖形介面觀察輸出

如果遇到錯誤

修改worker的記憶體 512m-> 1g

相關推薦

***注意authorized_keys這個檔案不要手動建立拷貝id_rsa.pub 即可