Spark SQL 筆記(16)—— Spark on YARN

阿新 • • 發佈：2018-12-21

1 Spark 的4種執行模式

不管使用壽命模式，Spark 應用程式的程式碼是不變的，只需要在提交的時候通過 --master引數來指定

Local,開發時使用
Standalone，Spark自帶的，如果一個叢集是 Standalone ,那麼就需要在多臺機器同時部署Spark環境；
YARN：建議在生產中使用；
Mesos

1.1 概述

Spark 支援可插拔的叢集管理模式；
對於YARN，Spark Application 僅僅是一個客戶端；

1.2 Spark on YARN 的模式

1.2.1 client 模式

Driver 執行在 client 端（提交 Spark 作業的機器）

Client 會和請求到的 Container 進行通訊來完成作業的排程和執行，Client 不能退出；
日誌在控制檯輸出，便於測試

1.2.2 cluster 模式

Driver 執行在 Application Master；
Client 只要提交完作業之後就可以關掉，因為作業已經在 YARN 上執行
日誌是在終端看不到的，因為日誌在Driver上，只能通過 yarn logs -applicationId <app ID>

1.3 設定 `HADOOP_CONF_DIR` 或者 `YARN_CONF_DIR`

配置方法有以下幾種：

export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.6.0-cdh5.7.0/etc/hadoop

1.4 測試

1.4.1 啟動YARN

[[email protected] ~]$ start-all.sh
This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh
18/11/16 20:36:12 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Starting namenodes on [node1]
node1: starting namenode, logging to /home/hadoop/apps/hadoop-2.6.0-cdh5.7.0/logs/hadoop-hadoop-namenode-node1.out
node2: starting datanode, logging to /home/hadoop/apps/hadoop-2.6.0-cdh5.7.0/logs/hadoop-hadoop-datanode-node2.out
node3: starting datanode, logging to /home/hadoop/apps/hadoop-2.6.0-cdh5.7.0/logs/hadoop-hadoop-datanode-node3.out
Starting secondary namenodes [0.0.0.0]
0.0.0.0: starting secondarynamenode, logging to /home/hadoop/apps/hadoop-2.6.0-cdh5.7.0/logs/hadoop-hadoop-secondarynamenode-node1.out
18/11/16 20:36:29 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
starting yarn daemons
starting resourcemanager, logging to /home/hadoop/apps/hadoop-2.6.0-cdh5.7.0/logs/yarn-hadoop-resourcemanager-node1.out
node2: starting nodemanager, logging to /home/hadoop/apps/hadoop-2.6.0-cdh5.7.0/logs/yarn-hadoop-nodemanager-node2.out
node3: starting nodemanager, logging to /home/hadoop/apps/hadoop-2.6.0-cdh5.7.0/logs/yarn-hadoop-nodemanager-node3.out
[ 
[email protected] ~]$

http://node1:8088/cluster
在這裡插入圖片描述

1.4.2 提交

client 模式

[[email protected] spark-2.1.3-bin-2.6.0-cdh5.7.0]$ ./bin/spark-submit \
>   --class org.apache.spark.examples.SparkPi \
>   --master yarn \
>   --executor-memory 1G \
>   --num-executors 1 \
>   ./examples/jars/spark-examples_2.11-2.1.3.jar \
>   5
18/11/16 20:49:35 INFO spark.SparkContext: Running Spark version 2.1.3
18/11/16 20:49:36 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
18/11/16 20:49:36 INFO spark.SecurityManager: Changing view acls to: hadoop
18/11/16 20:49:36 INFO spark.SecurityManager: Changing modify acls to: hadoop
18/11/16 20:49:36 INFO spark.SecurityManager: Changing view acls groups to: 
18/11/16 20:49:36 INFO spark.SecurityManager: Changing modify acls groups to:

cluster 模式

[[email protected] spark-2.1.3-bin-2.6.0-cdh5.7.0]$ ./bin/spark-submit \
>   --class org.apache.spark.examples.SparkPi \
>   --master yarn-cluster \
>   --executor-memory 1G \
>   --num-executors 1 \
>   ./examples/jars/spark-examples_2.11-2.1.3.jar \
>   5
Warning: Master yarn-cluster is deprecated since 2.0. Please use master "yarn" with specified deploy mode instead.
18/11/16 20:53:18 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
18/11/16 20:53:19 INFO client.RMProxy: Connecting to ResourceManager at node1/192.168.30.131:8032
18/11/16 20:53:19 INFO yarn.Client: Requesting a new application from cluster with 2 NodeManagers
............................
18/11/16 20:53:38 INFO yarn.Client: Application report for application_1542371790854_0006 (state: RUNNING)
18/11/16 20:53:39 INFO yarn.Client: Application report for application_1542371790854_0006 (state: RUNNING)
18/11/16 20:53:40 INFO yarn.Client: Application report for application_1542371790854_0006 (state: RUNNING)
18/11/16 20:53:41 INFO yarn.Client: Application report for application_1542371790854_0006 (state: RUNNING)
18/11/16 20:53:42 INFO yarn.Client: Application report for application_1542371790854_0006 (state: RUNNING)
18/11/16 20:53:43 INFO yarn.Client: Application report for application_1542371790854_0006 (state: RUNNING)
18/11/16 20:53:44 INFO yarn.Client: Application report for application_1542371790854_0006 (state: FINISHED)
18/11/16 20:53:44 INFO yarn.Client: 
	 client token: N/A
	 diagnostics: N/A
	 ApplicationMaster host: 192.168.30.133
	 ApplicationMaster RPC port: 0
	 queue: root.hadoop
	 start time: 1542372803673
	 final status: SUCCEEDED
	 tracking URL: http://node1:8088/proxy/application_1542371790854_0006/A
	 user: hadoop
18/11/16 20:53:44 INFO util.ShutdownHookManager: Shutdown hook called
18/11/16 20:53:44 INFO util.ShutdownHookManager: Deleting directory /tmp/spark-619e92b6-4fb4-47ac-ab8f-4836ccf9d086

https://spark.apache.org/docs/2.1.3/running-on-yarn.html

[[email protected] ~]$ yarn logs -applicationId application_1542371790854_0006
18/11/16 20:58:55 INFO client.RMProxy: Connecting to ResourceManager at node1/192.168.30.131:8032
18/11/16 20:58:56 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
/tmp/logs/hadoop/logs/application_1542371790854_0006does not exist.
Log aggregation has not completed or is not enabled.
[[email protected] ~]$

Spark SQL 筆記(16)—— Spark on YARN

1 Spark 的4種執行模式不管使用壽命模式，Spark 應用程式的程式碼是不變的，只需要在提交的時候通過 --master引數來指定 Local,開發時使用 Standalone，Spark自帶的，如果一個叢集是 Standalone ,那麼就需要在多臺

Spark SQL 筆記(4)——Spark SQL 介紹

1 Spark SQL 背景介紹 1.1 Hive 介紹類似 sql 的 Hive QL 語言， sql -> mapreduce 改進： hive on tez，hive on spark, hive on mapreduce 1.2 Spark

Spark SQL 筆記(3)——Spark 環境搭建

1 local 模式直接執行即可 2 Standalone 模式和 Hadoop/HDFS 的架構類似 /home/hadoop/apps/spark-2.1.3-bin-2.6.0-cdh5.7.0/conf 2.1 spark-env.sh SPARK_MA

Spark SQL 筆記(2)——Spark 生態圈和 Hadoop 生態圈對比

1 Spark 產生的背景 1.1 MapReduce 的侷限性程式碼繁瑣只能夠支援map 和 reduce 方法；執行效率低；不適合多次迭代、互動式、流式的處理； 1.2 框架多樣化批處理（離線）：MapReduce,H

Spark SQL 筆記(18)——spark SQL 總結(1)

1 Spark SQl 使用場景 Ad-hoc querying of data in files Live SQL analytics over streaming data ETL capabilities alongside familiar SQL I

Spark SQL 筆記(19)——spark SQL 總結(2) DataFrame VS SQL

1 DataFrame DataFrame = RDD + Schema DataFrame is just a type alias for Dataset of Row DataFrame ov

Spark 學習筆記之 Standalone與Yarn啟動和運行時間測試

span ima 上傳運行 yarn erl 技術分享 word wordcount Standalone與Yarn啟動和運行時間測試：寫一個簡單的wordcount：打包上傳運行： Standalone啟動：運行時間：

Spark SQL筆記整理（三）：加載保存功能與Spark SQL函數

code ren maven依賴 append 關聯 dfs 取值 struct nal 加載保存功能數據加載（json文件、jdbc）與保存（json、jdbc）測試代碼如下： package cn.xpleaf.bigdata.spark.scala.sql.p1

Spark SQL筆記整理（二）：DataFrame編程模型與操作案例

代碼最重要的 ssi func nbu 產生 michael array image DataFrame原理與解析 Spark SQL和DataFrame 1、Spark SQL是Spark中的一個模塊，主要用於進行結構化數據的處理。它提供的最核心的編程抽象，就是Data

Spark SQL 筆記(5)—— Hive 到 Spark SQL（1）

1 SQLContext 1.1 Spark1.x 中Spark SQL 的入口點：SQLContext 參考連結 https://spark.apache.org/docs/1.6.1/sql-programming-guide.html#starting-point-sqlc

Spark SQL 筆記(1)—— Hive

1 大資料入門學習 Hadoop ,Hive 的使用學習 Spark DataFrame 和 DataSet 在 Spark 框架中的核心地位 2 Hive 2.1 hive 產生的背景 MapReduce 程式設計的不便性；

Spark SQL 筆記(7)—— DataFrame API操作案例

1 測試資料 stu.txt 1|Anaa|111111|[email protected] 2|Bob|22222|[email protected] 3|Candy|333333

Spark SQL 筆記(10)——實戰網站日誌分析（1）

1 使用者行為日誌介紹 1.1 行為日誌生成方法 Nginx Ajax 1.2 日誌內容訪問的系統屬性：作業系統、瀏覽器訪問特徵：點選的 url、從哪個url 跳轉過來的（referer）、頁

Spark SQL 筆記(11)——實戰網站日誌分析（2）統計結果入庫

1 統計結果入庫使用 DataFrame API 完成統計分析使用 SQL API 完成統計分析將結果寫入 MySQL 資料庫 1.1 調優點分割槽欄位的資料型別的調整 https://

Spark SQL 筆記(15)——實戰網站日誌分析（5）資料視覺化

1 常見的視覺化框架 echarts highcharts d3.js HUE Zeppelin 2 建立 Web 專案下載Echarts的檔案放到此目錄 http://echarts.bai

Spark SQL 筆記(17)—— 專案效能調優

1 叢集優化儲存格式的選擇 ,https://www.infoq.cn/article/bigdata-store-choose 壓縮格式的選擇，https://www.ibm.com/develo

Spark學習筆記：Spark Streaming與Spark SQL協同工作

Spark Streaming與Spark SQL協同工作 Spark Streaming可以和Spark Core，Spark SQL整合在一起使用，這也是它最強大的一個地方。例項：實時統計搜尋次數大於3次的搜尋詞 package StreamingDemo i

Spark學習筆記（四）—— Yarn模式

1、Yarn執行模式介紹 Yarn執行模式就是說Spark客戶端直接連線Yarn，不需要額外構建Spark叢集。如果Yarn是分散式部署的，那麼Spark就跟隨它形成了分散式部署的效果。有yarn-client和yarn-cluster兩種模式，主要區別在於：Driver程式的執行節點。 yarn-clie

Spark-Sql整合hive，在spark-sql命令和spark-shell命令下執行sql命令和整合調用hive

type with hql lac 命令 val driver spark集群 string 1.安裝Hive 如果想創建一個數據庫用戶，並且為數據庫賦值權限，可以參考：http://blog.csdn.net/tototuzuoquan/article/details/5

What’s new for Spark SQL in Apache Spark 1.3（中英雙語）

block htm park -h apache HA log -a -- 文章標題 What’s new for Spark SQL in Apache Spark 1.3 作者介紹 Michael Armbrust 文章正文參考文獻

Spark SQL 筆記(16)—— Spark on YARN

1 Spark 的4種執行模式

1.1 概述

1.2 Spark on YARN 的模式

1.2.1 client 模式

1.2.2 cluster 模式

1.3 設定 HADOOP_CONF_DIR 或者 YARN_CONF_DIR

1.4 測試

1.4.1 啟動YARN

1.4.2 提交

相關推薦

1.3 設定 `HADOOP_CONF_DIR` 或者 `YARN_CONF_DIR`