Spark的安裝與啟動

阿新 • • 發佈：2018-11-19

前言：

在上一篇關於使用java和scala編寫spark-WordCount示例的部落格中，筆者直接使用eclipse工具開發了spark的wordCount示例

當然，這種方式可以使用在我們需要對scala程式碼進行本地測試的時候，在實際的生產環境，我們肯定不能這麼做，我們需要將專案提交到spark叢集來進行測試

本篇部落格就簡單介紹下，如何安裝、啟動、使用spark

準備工作：

讀者需要提前瞭解一下spark的相關功能，及執行方式

下面就來安裝一下spark

1.下載spark包

我們到spark的官網來下載，官網地址：http://spark.apache.org/downloads.html

注意：我們可以自己下載spark原始碼之後進行手動編譯，也可以使用spark編譯好的tar包（筆者使用spark編譯好的tar包）

由於spark需要關聯hadoop來使用，所以我們需要首先安裝hadoop，至於hadoop的安裝方式，讀者可參考筆者另一片部落格

Apache-Hadoop偽分散式環境搭建

筆者使用的hadoop版本為2.7.0，所以選擇spark版本為2.2.0版本，圖示如下：

點選下載對應的tgz包即可

2.安裝tgz包

將包放到Linux環境下/home/hxw/software路徑下，解壓縮到/opt/software路徑下

tar -zxf spark-2.2.0-bin-hadoop2.7.tgz -C /opt/software

3.配置spark（配置檔案在%SPARK_HOME%/conf路徑下）

* 修改spark-env.sh.template檔名稱修改為spark-env.sh，並配置以下內容

JAVA_HOME=/opt/software/jdk1.8.0_131 #請配置自己的JAVA_HOME 
SCALA_HOME=/opt/software/scala-2.11.12

HADOOP_CONF_DIR=/opt/software/hadoop-2.7.0 #指向自己配置的hadoop地址

下面新增spark資訊

SPARK_MASTER_HOST=hadoop # 筆者已經配置當前hostname為hadoop
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=2g
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081

* 修改slaves檔案

hadoop #將原本的localhost修改為當前hostname，筆者的為hadoop

* 修改spark-defaults.conf，新增以下內容

spark.master spark://hadoop:7077

4.使用local模式來啟動spark

[[email protected] spark-2.2.0]# ./bin/spark-shell --master local

看到以下內容說明啟動成功：

[[email protected] spark-2.2.0]# ./bin/spark-shell --master local
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
18/10/21 20:23:58 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
18/10/21 20:24:04 WARN ObjectStore: Failed to get database global_temp, returning NoSuchObjectException
Spark context Web UI available at http://192.168.146.128:4040
Spark context available as 'sc' (master = local, app id = local-1540178639774).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.2.0
      /_/
         
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_131)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

這時，我們可以通過檢視程序（使用jps命令來檢視）的方式來看到，spark只啟動了一個SparkSubmit應用，而且通過UI介面（http://hadoop:8080/）也看不到對應的任務

5.使用standalone模式來啟動spark

standalone模式構建一個由Master+Slave構成的spark叢集，spark執行在叢集中

* 啟動Master、slaves

[[email protected] spark-2.2.0]# ./sbin/start-master.sh
[[email protected] spark-2.2.0]# ./sbin/start-slaves.sh

通過jps看到以下，說明啟動成功

[[email protected] hxw]# jps
4321 Worker
4232 Master

注意：文字使用hdfs上的文字，路徑為/user/hadoop/mapreduce/input/wordcount.txt

當然，需要使用者提前啟動hadoop的HDFS，可使用下面的命令來啟動

[[email protected] hadoop-2.7.0]# ./sbin/start-dfs.sh

通過jps檢視程序（可以看到namenode和DataNode已經啟動，也可通過http://192.168.241.133:50070 檢視）

[[email protected] hadoop-2.7.0]# jps
4321 Worker
4513 NameNode
4820 SecondaryNameNode
4933 Jps
4232 Master
4618 DataNode

6.通過spark-shell來提交我們編寫的應用

主要是在spark standalone模式下，我們可以提交自己編寫的應用到叢集上

* 編寫WordCount程式，具體如下：

object WordCountScala {
  
  def main(args: Array[String]): Unit = {
    
    // 預設使用叢集模式，非local
    val sparkConf = new SparkConf().setAppName("wordCount");
    val sc = new SparkContext(sparkConf)
    
    // 我們使用hdfs上的文字，使用者需要先建立該檔案並提交到hdfs上
    val lines = sc.textFile("hdfs://hadoop:9000/user/spark.txt");
    val words = lines.flatMap(line => line.split(" "))
    val pairs = words.map(word => (word,1))
    val wordCounts = pairs.reduceByKey((a,b) => (a+b))
    
    // 執行成功之後，將結果儲存到該路徑
    wordCounts.saveAsTextFile("/opt/software/spark-2.2.0/data/sparktest/output/")
  }
}

* 將WordCountScala所在專案export為jar包，命名為spark-test

* 編寫shell檔案 startJar.sh，具體內容如下：

#!/bin/bash
/opt/software/spark-2.2.0/bin/spark-submit \
--class spark.demo.WordCountScala \
/opt/software/spark-2.2.0/data/sparktest/spark-study.jar

我們只需要指定好對應的class和jar路徑即可

* 執行startJar.sh

* 到我們指定的輸出路徑檢查結果是否正確

Spark 安裝與啟動

nbsp after example explicit 解決 cdh driver fail 建議 1.安裝下載cdh5(http://archive.cloudera.com/cdh5/cdh/5/) 中下載bin.tar到software，然後解壓到應用文件夾（建議

Spark的安裝與啟動

前言：在上一篇關於使用java和scala編寫spark-WordCount示例的部落格中，筆者直接使用eclipse工具開發了spark的wordCount示例當然，

ActiveMQ在Windows下的安裝與啟動（懶人專屬）

最新 lin 管理 star 新的 tro 安裝目錄 min 1.5 其實這些ActiveMQ官網都有，但是如果你懶得看官網，那就直接看這吧！ 1. 官網下載最新的ActiveMQ安裝包 apache-activemq-x.x.x-bin.zip並解壓 2.進入安

Tomcat安裝與啟動

sta 說明 blog log 啟動 src oca 啟動方式 java Tomcat的安裝很簡單, 解壓安裝包到任意目錄即可. 啟動方式 : bin下雙擊startup.bat 測試 : 瀏覽器輸入localhost:8080, 如果出現如下界面說明安裝成功 Tomca

2017.7.1 mysql安裝與啟動（已驗證可以使用）

界面 all avi 配置 install 服務毫無壓力 cnblogs 之前一直用解壓版安裝，啟動mysql服務的時候總是失敗，這次用mysql installer安裝一遍，終於成功啟動。 1.下載mysql installer 下載的32位的，在64位系統運行也

tomcat【Linux環境】安裝與啟動

log 下載 linux環境測試 $path rtu apache startup pro 一、安裝 1、下載tomcat安裝包 2、解壓安裝包 3、配置環境變量打開~/.bash_profile文件，輸入一下兩句話： export TOMCAT_HOME=/User

Node.js學習之旅（二）-----MongoDB的安裝與啟動

tar 商業 blank script img blog javascrip ref es2017 安裝與啟動MongoDB Windows 用戶向導：https://docs.mongodb.com/manual/tutorial/install-mongodb-on-

Docker安裝與啟動

Docker1、安裝docker[root@localhost /]# yum -y install docker-io2、更改配置文件[root@localhost /]# vi /etc/sysconfig/dockerother-args列更改為：other_args="--exec-driv

Redis的安裝與啟動（doc和本地客戶端）

目錄 html redis的安裝 www doc target redis-cli span ron 安裝都是老生長談了，這裏推薦倆個文章看看把。：打開一個cmd窗口使用cd命令切換目錄到 C:\redis 運行 redis-server.exe redis.conf（安

TOMCAT 之安裝與啟動關閉方法

base tmp protocol cto log ctp cat started jre 一、安裝方法 http://blog.51cto.com/12965094/2129450 二、啟動與關閉方法 1、[root@localhost bin]# sh startup.

Redis的正確安裝與啟動

1.安裝Redis 在Linux上安裝Redis 1.下載Redis指定版本的原始碼壓縮包Dao當前目錄 (筆者這裡下載的是3.0.7版本) $ wget http://download.redis.io/releases/redis-3.0.7.tar.zip 2.解壓縮包Redis原

Ubuntu 16.04下Spark安裝與開發環境搭建

https://blog.csdn.net/lengconglin/article/details/77847623 一、Spark執行環境　　Spark是Scala寫的，執行在JVM上，所以執行環境Java7+，如果使用Python

Nginx反向代理伺服器的安裝與啟動

1.什麼是nginx Nginx 是一款高效能的 http 伺服器/反向代理伺服器及電子郵件（IMAP/POP3）代理伺服器。由俄羅斯的程式設計師伊戈爾·西索夫（Igor Sysoev）所開發，官方測試 nginx 能夠支支撐 5 萬併發連結，並且 cpu、記憶體等資源消耗卻非常

一、ElasticSearch單例項安裝與啟動

1、下載官方下載地址：https://www.elastic.co/downloads/elasticsearch window選擇windows版本下載： 2、啟動下載之後，進入bin目錄敲命令.\elasticsearch啟動es PS D:\softwar

Tomcat的安裝與啟動+在eclipse上的配置

1.下載一個tomcat伺服器（解壓好，記住你解壓的位置） 2解壓後的目錄 .3.點選lib/startup.bat可以啟動tomcat（shutdown.bat就是關閉）當你啟動後可以在瀏覽器登入：http://localhost:8080來看你的伺服器是否

Swagger Editor安裝與啟動

SwaggerEditor安裝與啟動二(首先得有node.js,之前部落格有寫) （1）下載 https://github.com/swagger-api/swagger-editor/releases/download/v2.10.4/swagger-editor.zip。（2）解壓sw

Zookeeper安裝與啟動

1.Zookeeper單機模式安裝 1）下載，路徑為http://mirror.bit.edu.cn/apache/zookeeper/ ，筆者選擇3.4.11版本 2）解壓縮到%ZOOKEEPER_PATH% &nb

redis安裝與啟動

release 維護 font serve 可能一次步驟日誌重要安裝簡介：　　在安裝redis前需要了解redis官方發布時的版本規則，redis官方約定次版本號(即第一個小數點後的數字)為偶數的版本是穩定版(如2.8版，3.0版)，奇數版本則為非穩定版本(如2

一、ElasticSearch安裝與啟動

（一）官網下載tar包 wget..... （二）解壓（三）驗證出現如下資訊，才代表安裝成功 [[email protected] bin]# curl localhost:9200 { "name" : "administrator",

Spark快速入門指南 – Spark安裝與基礎使用

Apache Spark 是一個新興的大資料處理通用引擎，提供了分散式的記憶體抽象。Spark 正如其名，最大的特點就是快（Lightning-fast），可比 Hadoop MapReduce 的處理速度快 100 倍。此外，Spark 提供了簡單易用的 API，幾行程式碼

Spark的安裝與啟動

相關推薦