超圖大資料產品spark on yarn模式使用

阿新 • • 發佈：2018-12-29

本文介紹超圖大資料產品spark元件，iServer產品中的分散式分析服務，如何在部署好的spark叢集，hadoop叢集中採用spark on yarn模式提交任務進行空間大資料相關的分析。

一、環境

1. Ubuntu server 16，三個節點的hadoop叢集和spark叢集，一個客戶端機器。
2. hadoop 2.7，spark 2.1，叢集已部署好，未開啟kerberos認證
3. iobjects for java 910，iobjects for spark 910，iServer 910，未部署

二、部署超圖產品

hadoop叢集的每個節點機器上部署java元件，解壓java元件產品，將bin目錄下檔案放入指定目錄“/opt/SuperMap/iobjects/910/Bin”，確保Bin目錄有讀寫許可權

。
hadoop叢集的每個節點機器上配置試用許可，根據叢集名稱(hostname)在官網申請試用許可，將許可檔案放入每個機器的目錄“/opt/SuperMap/License”。
客戶端機器上部署spark元件和iServer產品，將spark元件解壓，iServer產品目錄解壓，在iServer產品裡安裝依賴庫，安裝許可驅動（這一步參考iServer的文件）。
配置iServer下自帶的spark配置檔案spark-default.conf ，新增yarn叢集地址，am記憶體引數等，如下圖。
將hadoop叢集的配置core-site.xml,hdfs-site.xml,yarn-site.xml檔案拷貝到客戶端機器的目錄/opt/SuperMap/hadoop-cdh，這個目錄可自行選擇。
進入iServer的bin目錄，啟動iServer，執行” startup.sh”，進入iServer管理頁面，按下面截圖步驟配置分散式分析服務，配置前需啟動hadoop叢集
配置完後，在yarn叢集的ui介面檢視應用是否有分散式分析服務的任務，如下圖
用iServer將自帶的示例csv資料，註冊到hdfs系統裡，按截圖步驟操作

三、用iServer提交點密度分析，進入“分散式分析服務”—“建立分析”，（確保hadoop叢集機器上沒有超圖的spark的lib包，如果有，請保持與iServer自帶的版本保持一致。）正常結果如下截圖
在這裡插入圖片描述

四、用spark元件提交大資料分析任務

Cluster模式提交，Cluster模式建議採用分散式儲存資料，這裡使用的udb是本地儲存，生成的結果不一定在driver端目錄下，可能在參與計算的某個worker節點目錄下。

./spark-submit --master yarn --deploy-mode cluster --driver-memory 6g --executor-memory 6g --executor-cores 4 --class com.supermap.bdt.main.CreateBuffersMain /opt/SuperMap/test-yarn-cluster/com.supermap.bdt.core-9.1.0-16402.jar --input '{"type":"udb","info":[{"server":"/opt/SuperMap/test-yarn-cluster/testdata.udb","datasetNames":["Railway"]}]}' --distance 100 --output '{"type":"udb","server":"/opt/SuperMap/test-yarn-cluster/testBufferOut10.udb","datasetName":"RailwayBuffer"}'

client模式提交，生成的結果是driver端。

./spark-submit --master yarn --deploy-mode client--driver-memory 6g --executor-memory 6g --executor-cores 4 --class com.supermap.bdt.main.CreateBuffersMain /opt/SuperMap/test-yarn-cluster/com.supermap.bdt.core-9.1.0-16402.jar --input '{"type":"udb","info":[{"server":"/opt/SuperMap/test-yarn-cluster/testdata.udb","datasetNames":["Railway"]}]}' --distance 100 --output '{"type":"udb","server":"/opt/SuperMap/test-yarn-cluster/testBufferOut10.udb","datasetName":"RailwayBuffer"}'

五、使用shell互動式提交任務，在spark/bin目錄按如下步驟執行命令即可

啟動spark-shell

./spark-shell --master yarn --deploy-mode client --jars /home/yb/opt/supermap-spark-9.0.0/lib/com.supermap.bdt.core-9.1.0.jar./spark-shell --master yarn --deploy-mode client --jars /home/yb/opt/supermap-spark-9.0.0/lib/com.supermap.bdt.core-9.1.0.jar

匯入類，import com.supermap.bdt.io.simpleCSV.SimpleCSVReader
執行讀取csv資料(資料路徑改為自己的)，val fRDD = SimpleCSVReader.read(sc, “hdfs://myspark-master:9000/input/newyorktaxi/newyork_taxi_2013-01_14k.csv”)
檢視結果，資料集的記錄總數，fRDD.count()

超圖大資料產品spark on yarn模式使用

本文介紹超圖大資料產品spark元件，iServer產品中的分散式分析服務，如何在部署好的spark叢集，hadoop叢集中採用spark on yarn模式提交任務進行空間大資料相關的分析。一、環境 1. Ubuntu server 16，三個節點的hadoop叢集和spar

大資料之Spark（八）--- Spark閉包處理，Spark的應用的部署模式，Spark叢集的模式，啟動Spark On Yarn模式，Spark的高可用配置

一、Spark閉包處理 ------------------------------------------------------------ RDD,resilient distributed dataset,彈性(容錯)分散式資料集。分割槽列表,fun

spark on yarn模式下內存資源管理（筆記2）

warn 計算 nta 堆內存註意 layout led -o exc 1.spark 2.2內存占用計算公式 https://blog.csdn.net/lingbo229/article/details/80914283 2.spark on yarn內存分配*

Spark on yarn模式的引數設定即調優

1 啟動方式執行命令./spark-shell --master yarn預設執行的是client模式。執行./spark-shell --master yarn-client或者./spark-shell --master yarn --deploy-m

Spark on YARN模式的安裝（spark-1.6.1-bin-hadoop2.6.tgz + hadoop-2.6.0.tar.gz）（master、slave1和slave2）（博主推薦）

說白了　　Spark on YARN模式的安裝，它是非常的簡單，只需要下載編譯好Spark安裝包，在一臺帶有Hadoop YARN客戶端的的機器上執行即可。　　Spark on YARN分為兩種： YARN cluster（YARN standalone，0.9版本以前）和 YA

spark on yarn模式裡需要有時手工釋放linux記憶體

歡迎您的加入！微信公眾號平臺：大資料躺過的坑微信公眾號平臺：人工智慧躺過的坑大資料和人工智慧躺過的坑（總群）： 161156071 更多QQ技術分群，詳情請見：http://www.cnblogs.com/zls

spark on yarn模式下掃描帶有kerberos的hbase

我上一篇寫了關於如何在spark中直接訪問有kerberos的hbase，現在我們需要對hbase進行全表的分散式掃描，在無kerberos的情況下通過sparkcontext的newApiHadoopRDD就可以達到目的，但有了kerberos的限制，這個方法就不行了，

首頁 Hadoop Spark Hive Kafka Flume 大資料平臺 Kylin 專題文章 Spark運算元一起學Hive Hive儲存過程 Hive分析函式 Spark On Yarn 資料

關鍵字: orc、index、row group index、bloom filter index之前的文章《更高的壓縮比，更好的效能–使用ORC檔案格式優化Hive》中介紹了Hive的ORC檔案格式，它不但有著很高的壓縮比，節省儲存和計算資源之外，還通過一個內建的輕量級索引

大資料利用hive on spark程式操作hive

hive on spark 作者：小濤 Hive是資料倉庫，他是處理有結構化的資料，當資料沒有結構化時hive就無法匯入資料，而它也是遠行在mr程式之上

Spark on Yarn遇到的幾個問題

添加 shuffle tasks pil 生產當前 lis file 被拒 1 概述 Spark的on Yarn模式。其資源分配是交給Yarn的ResourceManager來進行管理的。可是眼下的Spark版本號，Application日誌的查看，僅僅

Spark on yarn的兩種模式 yarn-cluster 和 yarn-client

然而技術負責 blog 作業 mage 申請 .com contain 從深層次的含義講，yarn-cluster和yarn-client模式的區別其實就是Application Master進程的區別，yarn-cluster模式下，driver運行在AM(Appli

spark on yarn詳解

.sh 提交 cut com blog sta clu ... client模式 1、參考文檔： spark-1.3.0：http://spark.apache.org/docs/1.3.0/running-on-yarn.html spark-1.6.0：http://s

Spark記錄-Spark on Yarn框架

ive 變量進程 app shuf backend 性能操作 spi 一、客戶端進行操作 1、根據yarnConf來初始化yarnClient，並啟動yarnClient2、創建客戶端Application，並獲取Application的ID，進一步判斷集群中的資源是

基礎概念之 Spark on Yarn

資源兩個 htm 底層兩種 nta 一起 () 所在先拋出問題：Spark on Yarn有cluster和client兩種模式，它們有什麽區別？用Jupyter寫Spark時，只能使用client模式，為什麽？寫一篇文章，搞清楚 Spark on Yarn 的運

Spark-on-YARN

stdout 資源 val running apach add cin 一般來說 mysq 1.官方文檔 http://spark.apache.org/docs/latest/running-on-yarn.html 2.配置安裝 1.安裝hadoop：需要安

Spark on Yarn作業運行架構原理解析

狀態區別通訊含義啟動應用 follow 關於 containe yar [TOC] 0 前言可以先參考之前寫的《Yarn流程、Yarn與MapReduce 1相比》，之後再參考《Spark作業運行架構原理解析》，然後再閱讀下面的內容，就很容易理解了。下面內容參

Spark on Yarn with Hive實戰案例與常見問題解決

ast spa dfs img 運維 base kcon 運維人員來看 [TOC] 1 場景在實際過程中，遇到這樣的場景：日誌數據打到HDFS中，運維人員將HDFS的數據做ETL之後加載到hive中，之後需要使用Spark來對日誌做分析處理，Spark的部署方式是

大資料之Spark（五）--- Spark的SQL模組，Spark的JDBC實現，SparkSQL整合MySQL，SparkSQL整合Hive和Beeline

一、Spqrk的SQL模組 ---------------------------------------------------------- 1.該模組能在Spack上執行Sql語句 2.可以處理廣泛的資料來源 3.DataFrame --- RDD --- tabl

大資料之Spark（四）--- Dependency依賴，啟動模式，shuffle，RDD持久化，變數傳遞，共享變數，分散式計算PI的值

一、Dependency:依賴:RDD分割槽之間的依存關係 --------------------------------------------------------- 1.NarrowDependency: 子RDD的每個分割槽依賴於父RDD的少量分割槽。 |

大資料之Spark（三）--- Spark核心API，Spark術語，Spark三級排程流程原始碼分析

一、Spark核心API ----------------------------------------------- [SparkContext] 連線到spark叢集,入口點. [HadoopRDD] extends RDD 讀取hadoop

超圖大資料產品spark on yarn模式使用

相關推薦