spark概述和安裝部署

阿新 • • 發佈：2018-05-17

初識 lock path memory 由於 flat 集群 worker opts

1、spark概述

1、什麽是spark
- 基於內存的計算引擎，它的計算速度非常快。但是spark僅僅只涉及到數據的計算，沒有涉及到數據的存儲。
2、為什麽學習spark
- 比mapreduce計算速度快很多。
3、spark特點
- 1、速度快
  - 比mapreduce在內存中快100x，在磁盤中快10x
    - 1、由於mapreduce每次job的中間結果數據都會落地到磁盤中，而spark每次中間結果數據可以不落地（可以保存在內存中）
    - 2、mapreduce任務對應都會產生一些map任務和reduce任務，這些任務都會以進程的方式運行在集群中，針對於spark任務，它是以線程的方式運行在spark集群中。
- 2、易用性
  - 可以快速寫一個spark應用程序采用4中語言（java/scala/Python/R）
- 3、通用性
  - 可以使用sparkSql /sparkStreaming/Mlib/Graphx
- 4、兼容性
  - 可以把spark程序提交到不同的平臺中運行（standalone/yarn/mesos）

2、spark集群安裝部署

1、下載spark安裝包
2、規劃安裝目錄
3、解壓安裝包到指定安裝目錄
4、重明名安裝目錄
5、修改配置文件
- 1、vi spark-env.sh (mv spark-env.sh.template spark-env.sh)
  - 配置java環境變量
    - export JAVA_HOME=/export/servers/jdk
  - 配置master的地址
    - export SPARK_MASTER_HOST=node1
  - 配置master的端口
    - export SPARK_MASTER_PORT=7077
- 2、vi slaves (mv slaves.template slaves)
  - 添加worker節點
    - node2
    - node3

6、添加spark環境變量

vi /etc/profile


export SPARK_HOME=/export/servers/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

7、分發spark安裝目錄到其他節點
- scp -r spark root@node2:/export/servers
- scp -r spark root@node3:/export/servers
- scp /etc/profile root@node2:/etc
- scp /etc/profile root@node3:/etc
8、讓所有spark環境變量生效
- 在所有節點執行
  - source /etc/profile
?

3、spark集群啟動和停止

啟動spark集群
- 在主節點上執行腳本
  - $SPARK_HOME/sbin/start-all.sh
停止spark集群
- 在主節點上執行腳本
  - $SPARK_HOME/sbin/stop-all.sh

4、spark集群web管理界面

spark web管理界面
- 訪問地址：http://master的地址:8080

5、基於zookeeper的sparkHA高可用部署

1、修改配置文件 vi spark-env.sh

1、註釋掉手動指定的master地址
- export SPARK_MASTER_HOST=node1

2、添加配置參數 SPARK_DAEMON_JAVA_OPTS


export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER  -Dspark.deploy.zookeeper.url=hdp-node-01:2181,hdp-node-02:2181,hdp-node-03:2181  -Dspark.deploy.zookeeper.dir=/spark"

2、啟動zk集群
3、啟動sparkHA
- 可以在任意一臺機器上啟動腳本(它會在當前機器中產生一個Master進程) 前提條件：配置所有機器兩兩之間對應的ssh免登錄
  - start-all.sh
- 可以在其他機器上單獨啟動master進程
  - start-master.sh

6、spark角色介紹

1、Driver
- 就是運行客戶端main方法，構建SparkContext對象
2、Application
- 包含driver代碼，還有當前這個任務計算所有需要的資源
3、Master
- 它是集群中老大，負責資源的分配和任務的調度
4、ClusterManager
- spark應用程序可以獲取的外部資源
  - Standalone
    - spark自帶的集群模式，資源的分配和任務調度由Master
  - Yarn
    - 資源的分配和任務調度由ResourceManager
  - Mesos
    - 是apache開源的一個資源調度框架。
5、Worker Node
- 集群中的小弟，負責任務計算的節點
- Standalone: 通過slaves文件指定的節點
- spark on yarn: yarn中的NodeManager節點
6、executor
- 它是一個進程，它會在worker節點上啟動
7、task
- 是以線程的方式運行在executor進程中

7、初識spark程序

1、普通模式提交任務（已經知道活著的master地址）


bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://node1:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
examples/jars/spark-examples_2.11-2.0.2.jar \
10

2、高可用模式提交任務（並不知道哪一個master是活著的master）


bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://node1:7077,node2:7077,node3:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
examples/jars/spark-examples_2.11-2.0.2.jar \
10

8、spark-shell使用

1、spark-shell --master local[N] 讀取本地數據文件，實現單詞計數
- --master local[N]
  - 指定master的地址為本地單機版模式，N是一個正整數，（local[2]）表示本地采用2個線程來運行任務
- 它會產生一個SparkSubmit進程
```
sc.textFile("file:///root/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
?
sc.textFile("file:///root/words.txt").flatMap(x=>x.split(" ")).map(x=>(x,1)).reduceByKey((x,y)=>x+y).collect
```

2、spark-shell --master local[N] 讀取HDFS上數據文件，實現單詞計數

spark整合HDFS

vi spark-env.sh


export HADOOP_CONF_DIR=/export/servers/hadoop/etc/hadoop


sc.textFile("/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

3、spark-shell --master 指定master為spark集群中活著的master，讀取HDFS上數據文件，實現單詞計數
- spark-shell --master spark://node1:7077 --executor-memory 1g --total-executor-cores 2

spark概述和安裝部署

初識 lock path memory 由於 flat 集群 worker opts 1、spark概述 1、什麽是spark 基於內存的計算引擎，它的計算速度非常快。但是spark僅僅只涉及到數據的計算，沒有涉及到數據的存儲。 2、為什麽學習spark

Spark-Unit1-spark概述與安裝部署

一、Spark概述　　spark官網：spark.apache.org 　　Spark是用的大規模資料處理的統一計算引擎，它是為大資料處理而設計的快速通用的計算引擎。spark誕生於加油大學伯克利分校AMP實驗室。　　mapreduce（MR）與spark的對比：　　　　1.MR在計算中產生的結

Redis的概述、優勢和安裝部署

Redis概述 Redis是一個開源，先進的key-value儲存，並用於構建高效能，可擴充套件的應用程式的完美解決方案。 Redis從它的許多競爭繼承來的三個主要特點： Redis資料庫完全在記憶體中，使用磁碟僅用於永續性。相比許多鍵值資料儲存，Redis擁有一套較為豐富的資料型別。S

Cloudera簡介和安裝部署概述

最近作者在研究Cloudera，並且在自己的虛擬機器叢集安裝部署成功，所以在此做個分享，幫助大家儘快構建自己的Cloudera環境並運用起來。文章將會對Cloudera以及其安裝時涉及到的元件做一個簡單的介紹，並把官方文件中介紹的3種安裝部署方式做一個概要的說明。Cloudera簡介為了構建一個以資料為驅動的

elastic search&logstash&kibana 學習歷程（三）Logstash使用場景和安裝部署

download ssa 技術 tar.gz 我認搬運 OS last 文檔 Logstash基本介紹和使用場景自我認為：logstash就是日誌的采集收集，日誌的搬運工，實時去采集日誌。讀取不同的數據源，並進行過濾，開發者自定義規範輸出到目的地。日誌的來源很多，如系統

spark集群安裝部署

track 2.7 問題 rac 驗證配置 ogg host 格式 file 通過Ambari(HDP)或者Cloudera Management (CDH)等集群管理服務安裝和部署在此不多介紹，只需要在界面直接操作和配置即可，本文主要通過原生安裝，熟悉安裝配置流程。 1.

Hive從入門到精通系列之--0.Hive概述和安裝環境

一 Hive概述 Hive是由Facebook開源用於解決海量結構化日誌的資料統計 Hive是基於Hadoop框架的一個數據倉庫分析工具，這裡對於資料倉庫，何為資料倉庫？mysql，orical，sqlserver我們叫這些為資料庫，所謂資料倉庫就是在這個資料倉庫中這些

Rabbitmq的簡單概述和原始碼部署

一、 RabbitMQ概述 1.1 基本概述 RabbitMQ是一種訊息中介軟體，能夠很好的處理來自客戶端的非同步訊息傳送及請求，將訊息傳送放入到服務端的佇列池中，而接收端可以根據RabbitMQ配置的轉發機制接收和過濾服務端轉發來的訊息。RabbitMQ 可以根據指定的訊息轉發規則

Phoenix事物和安裝部署：CDH5.12.1和phoenix4.8結合

Phoenix安裝部署和事物支援配置遇到的問題：本人在cdh5.12叢集上部署phoenix，並讓其支援事物的經驗總結！！過程遇到幾個比較關鍵的問題，希望對你們有所幫助 1）準備安裝包：編譯完成的包:phoenix-4.9.0-cdh5.9.1.tar.gz 2）部署：

第一課、redis的介紹和安裝部署

NoSql介紹非關係型資料庫超大規模，高併發特點 key-value形式儲存不一定遵循傳統資料庫的一些基本要求，比如遵循SQL標準、ACID屬性（事務處理）、表結構等非關係型的、分散式、開源的、水平可擴充套件的 1.處理超大量的資料 2.執行在便宜的PC伺服器

大資料排程框架Oozie概述以及安裝部署

一、初步認識Oozie 常用的排程框架： Linux Crontab Azkaban（簡單易用，但是功能不夠全） Oozie Zeus（阿里開源框架） Oozie是一個分散式大資料排程框架，在oozie中，有兩個重要的概念，工作流和排程。所謂工作流，就

Oracle 19C的下載和安裝部署（圖形安裝和靜默安裝）

數據庫軟件 rhel7 body klist ont least EDA nts fff Oracle 19C的下載和安裝部署（圖形安裝和靜默安裝） https://docs.oracle.com/en/database/oracle/oracle-dat

【原創 Spark動手實踐 1】Hadoop2.7.3安裝部署實際動手

dmi 遠程 nag proc host 一個 error img 連接目錄：第一部分：操作系統準備工作：　　1. 安裝部署CentOS7.3 1611 　　2. CentOS7軟件安裝（net-tools, wget, vim等）　　3. 更新CentOS

Unity3D中tolua的“安裝部署和使用“教程

替換部署 ref 比對 text asset gin 系統 .com 棄坑Cocos2d-x，轉戰Unity3D 考慮到項目一定會使用熱更，花了不少時間比對了lua的支持方案，最後定為tolua，原因不解釋。俗話說，萬事開頭難，中間難，最後難……我反正是沒有找到如何安裝

ansible安裝部署和配置、常用模塊整理

自動化運維工具輸出信息 pat 秘鑰 img 系統命令 hair 作用環境今天心情不錯~~~~第25個生日了，又遇昨晚百年難得一見的藍月亮，所以昨晚連夜整理了文檔，會分為兩部分發出去，ansible批量化部署在工作中是非常實用，建議呢整理大量常用模塊去練習1.1.1

SPARK 2.2.1 YARN安裝部署

hadoop hadoop2 spa exec file tor blog cluster drive 1、安裝scala：在SparkNode01~03節點安裝： cd /opt tar xzvf scala-2.11.12.tgz mv scala-2.11.12 s

Piplin 安裝部署、遷移和配置使用筆記

back create 選擇目的登錄控制面板創建用戶不同的項目一、軟件安裝源碼及安裝參考：https://github.com/Piplin/Piplin 代碼安裝目錄：/home/piplin/www 配置文件：/home/piplin/www/.env

Spark筆記整理（一）：spark單機安裝部署、分布式集群與HA安裝部署+spark源碼編譯

大數據 Spark [TOC] spark單機安裝部署 1.安裝scala 解壓：tar -zxvf soft/scala-2.10.5.tgz -C app/ 重命名：mv scala-2.10.5/ scala 配置到環境變量： export SCALA_HOME=/home/uplooking

Tomcat安裝部署和安全加固優化以及反向代理應用

proto 用戶 app home con 配置文件 ftw 並發環境變量 1、Tomcat介紹 Tomcat是Apache軟件基金會（Apache Software Foundation）的Jakarta 項目中的一個核心項目，由Apache、Sun和其他一些公司及個人

spark概述和安裝部署

1、spark概述

2、spark集群安裝部署

3、spark集群啟動和停止

4、spark集群web管理界面

5、基於zookeeper的sparkHA高可用部署

6、spark角色介紹

7、初識spark程序

8、spark-shell使用

相關推薦