Spark基礎理論及安裝

阿新 • • 發佈：2019-01-08

一、初始Spark

1、產生背景

由於mapreduce只適用於離線資料處理（批處理），而不能支援對迭代式，互動式，流式資料的處理，因此,spark就誕生了

hive的產生就是為了解決mapreduce的程式設計複雜的問題

spark的產生就是為了解決mapreduce的計算緩慢的問題

Spark和MapReduce的對比之後的優勢：

1、減少磁碟IO

MapReduce：基於磁碟 Spark:基於記憶體（儘量把臨時資料快取在記憶體中）

2、增加並行度

MapReduce： MapTask ReduceTask JVM 一個程序一個Task 預設情況下

Spark : ShuffleMapTask ResultTask 使用的是一個執行緒執行

3、避免重複計算

可以把資料強制的持久化到記憶體中，以供其他的task使用

4、可選的shuffle和排序

可選的shuffle ： MapReduce:提供的是一種通用的shuffle combiner partitioner sorter

Spark:提供四種shuffle策略，分別有對應不同的需求場景 HashShuffle SortShuffle

可選的排序： mapreducer如果有Reduce階段的話，那麼sorter的資料排序一定會執行

5、靈活的記憶體管理策略

要多少給多少。可以合理的分配到底哪個階段，哪個元件，使用多少

2、Spark的概念（一棧式的通用計算框架）

官網：http://spark.apache.org/

Spark是一快速、通用、可擴充套件的大資料分析引擎

2009年誕生於加州大學伯克利分校

3、Hadoop生態和Spark生態的區別

Hadoop生態：

hdfs+zookeeper+mapreduce/hive+hbase+storm+mahout+其他工具

Spark生態體系：

hdfs+zookeeper+spark+hbase+storm+mahout+其他工具

spark的產生就是為了替代Mapreduce

4、特點

1）Speed:快速高效

2）Ease of Use:簡單易用

3）Generality:全棧式資料處理

支援批處理（Spark Core）：Spark Core 是 Spark 的核心功能實現，包括：SparkContext 的初始化（DriverApplication 通過 SparkContext 提交）、部署模式、儲存體系、任務提交與執行、計算引擎等
支援互動式查詢（Spark SQL）。Spark SQL 是 Spark 來操作結構化資料的程式包，可以讓我們使用 SQL 語句的方式來查詢資料，Spark 支援多種資料來源，包含 Hive 表，parquet 以及 JSON等內容
支援流式計算（Spark Streaming）。與 MapReduce 只能處理離線資料相比，Spark 還支援實時的流計算。Spark 依賴 Spark Streaming 對資料進行實時的處理。
支援機器學習（Spark MLlib）。提供機器學習相關的統計、分類、迴歸等領域的多種演算法實現。其一致的 API 介面大大降低了使用者的學習成本
支援圖計算（Spark GraghX）。提供圖計算處理能力，支援分散式， Pregel 提供的 API 可以解決圖計算中的常見

4）Run EveryWhere:相容

二、Spark叢集的安裝

1、叢集規劃

server	Master	Worker
qyl01	√	√
qyl02	√	√
qyl03		√

2、具體步驟

1、上傳下載好的 Spark 到叢集中的一個節點，比如是 qyl01

put c:/spark-2.3.0-bin-hadoop2.7.tgz

2、使用之前安裝 hadoop 叢集相同的 hadoop 使用者安裝 spark 叢集，現在規劃安裝目錄/home/qyl/apps/，解壓縮排行安裝

tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -apps /home/qyl/apps/

3、修改配置檔案 spark-env.sh

進入 SPARK_HOME 的 conf 目錄中，進行如下更改：
cd /home/qyl/apps/spark-2.3.0-bin-hadoop2.7/conf
mv spark-env.sh.template spark-env.sh
然後修改 spark-env.sh：
export JAVA_HOME=/usr/local/java/jdk1.8.0_73
export SPARK_MASTER_HOST=qyl01
export SPARK_MASTER_PORT=7077

4、修改配置檔案 slave

修改配置檔案 slave
進入 SPARK_HOME 的 conf 目錄中，進行如下更改：
cd /home/qyl/apps/spark-2.3.0-bin-hadoop2.7/conf
mv slaves.template slaves
在 slaves 的最後新增所有 worker 節點的主機名
qyl01
qyl02
qyl03

5、將spark安裝包copy到所有安裝節點

scp -r spark-2.3.0-bin-hadoop2.7 qyl02:/home/qyl/apps/
scp -r spark-2.3.0-bin-hadoop2.7 qyl03:/home/qyl/apps/

6、修改配置檔案

vim /etc/profile
export SPARK_HOME=/home/qyl/apps/spark-2.3.0-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
source /etc/profile

7、配置zookeeper叢集，並且啟動zookeeper叢集

8、修改SPARK_HOME/conf目錄中的spark-env.sh配置檔案

刪掉：
export SPARK_MASTER_HOST=qyk01
增加一行：
 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -
Dspark.deploy.zookeeper.url=qyl01,qyl02,qyl03 -
Dspark.deploy.zookeeper.dir=/spark"

9、把core-site.xml和hdfs-site.xml放置在$SPARK_HOME/conf目錄下，然後所有節點要同步

10、同步配置檔案

 scp -r spark-env.sh qyl02:$PWD
 scp -r spark-env.sh qyl03:$PWD

11、啟動叢集

[[email protected] spark-2.3.0-bin-hadoop2.7]$ sbin/start-all.sh

三、核心概念

1、Master

就如同名字一樣，是spark叢集的管理者，或者管理節點

在Spark基於Yarn的方式執行過程中，master就是resourcemanager，基於自身的standalone模式執行就是叢集中檢視到的master節點

2、Work

是spark叢集的工作節點，在spark基於Yarn的方式執行過程中，work就是nodemanager，基於自身的standalone模式執行就是叢集中檢視到的work節點

作用：調動本臺機器上面的資源

3、Application

提交到spark叢集中取執行的完整應用就是一個Application，當然一個Application由多個job組成

4、Job

每提交到比較會提交一個Spark的job作業，或者說，每觸發一次action操作，就會提交一次spark作業job,從這個角度而言，一個application又多個Job組成，這裡的job，就可以理解MapReduce中的Job

5、SparkContext

整個一個Application的應用上下文物件

一個spark應用的入口就是sparkcontext，是spark作業最要的概念

6、Driver

驅動，簡單理解，就是用來提交程式碼，提交job作業

再換句話說，jobs是在叢集中執行的，而這些dirver是在本地提交這些job作業的

7、RDD:彈性分散式資料集(resilient distributed dataset）

RDD就能夠被平行計算的，被分割槽儲存在叢集中各個節點的資料集

RDD其實不儲存真是的資料，只儲存資料的獲取的方法，以及分割槽的方法，還有就是資料的型別。

分散式：資料儲存在rdd對應的各個partition分割槽中

彈性：spark的資料在記憶體中儲存或者計算，當記憶體儲存不了的時候，對應的資料外溢到磁碟進行儲存和計算

RDD的建立方式：可以hdfs檔案建立，還可以通過並行對scala的集合建立，在編碼過程中還可以通過轉化，將一個rdd轉化為其他的rdd

四、SparkRDD執行架構圖

以wordcount為例：

在spark-shell中執行
sc.textFile("hdfs://myha01/spark/word.txt")flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).foreach(println)

五、建立Spark作業

1、maven專案

2、匯入依賴在pom.xml中新增

<properties>
     <scala.version>2.11.8<scala.version>
     <spark.version>2.3.2<spark.version>
     <hadoop.version>2.7.6<hadoop.version>
<properties>

<dependency>
     <groupid>org.apache.spark</groupid>
     <artifactId>spark-core_2.11</artifactId>
     <version>${spark.version}</version>
 </dependency>

<dependency>
     <groupid>org.apache.hadoop</groupid>
     <artifactId>hadoop-client</artifactId>
     <version>${hadoop.version}</version>
 </dependency>

Spark基礎理論及安裝

一、初始Spark 1、產生背景由於mapreduce只適用於離線資料處理（批處理），而不能支援對迭代式，互動式，流式資料的處理，因此,spark就誕生了 &nb

大數據筆記（二十七）——Spark Core簡介及安裝配置

sin cli sca follow com clu 同時 graphx 信息 1、Spark Core：類似MapReduce 核心：RDD 2、Spark SQL：類似Hive，支持SQL 3、Spark Streaming：類似

安裝spark叢集及spark介紹

Spark的介紹 Hadoop與Strom Hadoop： MapReduce：為海量資料提供了計算，但只有Map和Reduce操作，操作不靈活。 HDFS（分散式檔案系統）：為海量的資料提供了儲

Spark-SQL的安裝及使用

安裝步驟下載編譯了Hive的Spark版本官網下載連結給出的都是編譯過Hive的（至少1.6版可以確定是）。CDH自帶的Spark都是沒有帶Hive的，若直接執行./spark-sql，會報錯如下 Caused by: java.lang.C

maven 之maven簡介及安裝

分享運行項目信息 ava 信息專家 not 編碼 bin 1. maven:行內，專家。基於java的項目構建功能，依賴管理，項目信息管理，Maven是一個項目構建工具。 2.構建：指日常開發中經常完成的除了編碼外的一些動作。如：清理，編譯，測試，運行，報告，部署等動

Ubuntu下查看軟件版本及安裝位置

blog apt ubuntu下 nbsp apt-get -m clas mod dpkg 查看軟件版本:aptitude show xxx 也可用apt-show-versions (要先安裝sudo apt-get install apt-show-version

mongoDB簡單介紹及安裝

疑問每次 data- .org 存儲 cmd 針對安裝包目錄近期一段時間對mongoDB進行了簡單的學習，從它是什麽？幹什麽？怎麽用？優缺點？這一系列的疑問到如今可以簡單運用。我想須要對其進行簡單的總結和概述。那麽這一篇就從最基礎的開始，對其

Git服務器安裝詳解及安裝遇到問題解決方案【轉】

bsp erb 倉庫 .... gnu libcurl 執行 body ebs 轉自：http://www.cnblogs.com/grimm/p/5368777.html git是一個不錯的版本管理的工具。現在自己在搞一個簡單的應用程序開發，想使用git來進行管理。

【轉】Nodejs學習筆記（一）--- 簡介及安裝Node.js開發環境

ack 目錄 javascrip 難度時間網站開發 clas jetbrains 常用目錄學習資料簡介安裝Node.js npm簡介開發工具 Sublime Node.js開發環境配置擴展：安裝多版本管理器學習資料　　1.深入淺出Node.j

PhpStorm 10.0.3漢化及安裝破解教程

文件 php單元測試 php 7 同時優點擁有 mac os 全部多語言 PhpStorm 10.0.3漢化破解版 PhpStorm是由JetBrains公司開發推出的商業PHP集成開發工具，軟件不僅包含了webstorm的全部功能，還擁有php、javascrip

RabbitMQ介紹及安裝部署

lan 行數安裝部署原理圖 tro 快的它的主題通配符本節內容： RabbitMQ介紹 RabbitMQ運行原理 RabbitMQ重要術語三種ExchangeType RabbitMQ集群種類集群基本概念鏡像模式部署集群一、RabbitMQ介紹

nodejs優缺點及安裝步驟

rip chrome瀏覽器進程官網網速 ogl ror 匿名運行 Node本身運行V8 JavaScript。V8 JavaScript引擎是Google用於其Chrome瀏覽器的底層JavaScript引擎。Google使用V8創建了一個用C++編寫的超快解釋器

Storm介紹及安裝部署

節點和 yam 實時計算系統如果 int 端口 bili usr then 本節內容： Apache Storm是什麽 Apache Storm核心概念 Storm原理架構 Storm集群安裝部署啟動storm ui、Nimbus和Supervisor 一、Ap

cordova plugin 大全及安裝命令

時間選擇攝像監聽 and 操作 desc appid keyboard chrom 　　前言：用cordova開發hybrid app的過程中，由於是html5開發的app，在手機上很多權限受限制，這就導致了我們需要安裝很多插件來彌補這一缺點。在網上搜了好久，感覺都

Linux下使用Corosync+Pacemaker詳解及安裝

corosync pacemaker 珠聯璧合 Corosync詳解OpenAIS概述OpenAIS是基於SA Forum 標準的集群框架的應用程序接口規範。OpenAIS提供一種集群模式，這個模式包括集群框架，集群成員管理，通信方式，集群監測等，能夠為集群軟件或工具提供滿足 AIS標準的集

前端開發工具Brackets介紹，安裝及安裝Emme插件時踩過的坑

module 文件不想現在 div 當前 user 沒有 -s 　　對於前端開發的園友來說有可能IDE工具有很多，層次不窮，還有每個人的喜好及習慣也不一樣，因為我是一名後端開發的.Net程序員，但是大家都知道，現在都提倡什麽全棧工程師，所以也得會點前端開發，所以我對於

Mac Sublime Text 3 配置Python環境及安裝插件

官網下載 span rep nac command 設置 tel defined 一、下載安裝Sublime Text 3 官網下載地址：http://www.sublimetext.com/3 二、配置Python開發環境 1.點擊右下角，選擇python 2.添加編

CentOS7系統環境初始化及安裝的時候網卡改名為eth*

ati cfg iyu ios tcpdump log sysconfig emctl 更新操作系統安裝：將網卡名稱設置為eth*，不使用CentOS 7默認的網卡命名規則。所以需要在安裝的時候，增加內核參數。1. 光標選擇“Install CentOS 7”

linux--系統啟動及安裝過程詳解

linux啟動先通過一張圖來簡單了解下整個系統啟動的流程，整個過程基本可以分為POST-->BIOS-->MBR(GRUB)-->Kernel-->Init-->Runlevel本文出自 “運維自動化” 博客，請務必保留此出處http://shower.blog.51cto.co

linux簡介及安裝

linux1.簡介誕生於1991年10月5日 linux是類Unix操作系統，基於POSIX和UNIX的多用戶、多任務、支持多線程和多CPU的操作系統。支持32位和64位硬件，繼承了Unix以網絡為核心的設計思想。創始人：林納斯·托瓦茲（Linus Benedict Torvalds）特點：

Spark基礎理論及安裝

一、初始Spark

1、產生背景

2、Spark的概念 （一棧式的通用計算框架）

3、Hadoop生態和Spark生態的區別

4、特點

二、Spark叢集的安裝

1、叢集規劃

2、具體步驟

三、核心概念

1、Master

2、Work

3、Application

4、Job

5、SparkContext

6、Driver

7、RDD:彈性分散式資料集(resilient distributed dataset）

四、SparkRDD執行架構圖

五、建立Spark作業

1、maven專案

2、匯入依賴 在pom.xml中新增

相關推薦

2、Spark的概念（一棧式的通用計算框架）

2、匯入依賴在pom.xml中新增