spark筆記2之spark粗略執行流程

阿新 • • 發佈：2018-11-22

一、Spark粗略的執行流程

二、程式碼流程

1、建立一個SparkConf

2、建立一個上下文物件SparkContext

3、建立一個RDD

4、使用transformations類運算元進行各種各樣的資料轉換

5、使用Action類運算元觸發執行

6、關閉上下文物件

分散式檔案系統（File system）--載入RDD

transformations延遲執行--針對RDD的操作

Action觸發執行

一、Spark粗略的執行流程

如下圖：

Driver：程序；Worker：程序；RAM：執行記憶體；Input Data：要計算的資料

每個task處理128M的資料量

二、程式碼流程

1、建立一個SparkConf

val sparkConf = new SparkConf().setAppName("DirectKafkaWordCount").setMaster("local[2]")

1、設定Application名稱（在web ui顯示）

2、可設定Application執行所需要的資源情況

3、設定Spark的執行模式 local standalone yarn mesos

2、建立一個上下文物件SparkContext

val sc = new SparkContext(conf)

建立SparkContext需要用到spark的配置物件

SparkContext是通往叢集的唯一通道

3、建立一個RDD

4、使用transformations類運算元進行各種各樣的資料轉換

5、使用Action類運算元觸發執行

6、關閉上下文物件

分散式檔案系統（File system）--載入RDD

transformations延遲執行--針對RDD的操作

——返回值是RDD

——transformations是某一類運算元（函式）

Action觸發執行

——action也是一類運算元（函式）

——返回值都不是RDD型別

如果你的運算元的返回值是RDD型別，那麼這個運算元就是transformations運算元，否則就是Action類運算元

spark筆記2之spark粗略執行流程

目錄一、Spark粗略的執行流程二、程式碼流程 1、建立一個SparkConf 2、建立一個上下文物件SparkContext 3、建立一個RDD 4、使用transformations類運算元進行各種各樣的資料轉換 5、使用Action類運算元觸發執行 6、關閉

大資料技術學習筆記之Hadoop框架基礎2-MapReduce程式設計及執行流程

一、回顧 -》hadoop的功能？ -》海量資料儲存和海量計算問題 -》分散式檔案儲存框架hdfs和

Spark學習筆記（10）—— wordcount 執行流程分析

1 啟動叢集啟動 HDFS start-dfs.sh 啟動 Spark 叢集 /home/hadoop/apps/spark-1.6.3-bin-hadoop2.6/sbin/start-all

本地Spark程式提交到hadoop叢集執行流程

1.本地環境準備本文是將eclipse開發環境下的maven+Spark+scala程式移植到叢集環境上執行過程，寫的很粗糙，見諒。本地用eclipse編寫Spark小程式，完成從txt檔案讀取資料操作。本地maven+Spark+scala環境就不多說了，如果配置出

Spark筆記三之RDD,運算元

RDD核心概念 Resilientdistributed DataSet,彈性分散式資料集 1是隻讀的，分割槽記錄的集合物件 2分割槽(partition)是RDD的基本組成單位，其決定了平行計算的粒度。應用程式對RDD的轉換最終都是對其分割槽的轉換。 3使用者可以指定RD

《Java編程思想》筆記第四章控制執行流程

ascii cas div 當前也不會 system 包括進入 ont 1.true和false 1.1 if--else if--else, while, do--while 都使用條件表達式的真假來決定執行路徑。 1.2 Java不允許數字作為真假判斷，C和C++可

Git學習筆記(2)之Git版本回退

.com 分享 nbsp class 文檔行修改通過分享圖片 font 　　　　當我們成功將修改過的文件提交到了Git版本庫了之後，突然發現自己有一個問題改錯了，這個時候我們想回退到上一次的版本該怎麽辦呢？幸好Git記錄的是修改，這樣我們就能通過一些方法回退到修改之前

Spark原始碼分析之Spark Shell（上）

https://www.cnblogs.com/xing901022/p/6412619.html 文中分析的spark版本為apache的spark-2.1.0-bin-hadoop2.7。 bin目錄結構： -rwxr-xr-x. 1 bigdata bigdata 1089 Dec

Kettle學習筆記012之使用Java執行Kettle作業

前言： Kettle提供一些API，Java通過呼叫這些API去執行Kettle作業，轉換。第一步：搭建Kettle執行環境從data-integration\lib\目錄下複製部分核心jar包出來，匯入到java專案（jdk1.8）中。所需jar包如下（不要

K8S 原始碼探祕之 kubeadm join 執行流程分析

一、引言本文將基於 Kubernetes 1.12 版本，分析 kubeadm join 的執行流程，希望對讀者理解 k8s 有幫助！關於 init 流程

K8S 原始碼探祕之 kubeadm init 執行流程分析

一、引言 kubeadm 是 k8s 重要的快速部署工具，也是其原生支援的部署工具，在實現自動化部署方面具有重要的研究價值。本文將基於 Kubernetes 1.12 版本，分析

mysql基礎架構之查詢語句執行流程

這篇筆記主要記錄mysql的基礎架構，一條查詢語句是如何執行的。比如，在我們從student表中查詢一個id=2的資訊 select * from student where id=2; 在解釋這條語句執行流程之前，我們看看mysql的基礎架構。圖來自極客時間的mysql實踐,該圖是描述的是M

MySql 筆記 | MySQL架構總覽->查詢執行流程->SQL解析順序

前言：一直是想知道一條SQL語句是怎麼被執行的，它執行的順序是怎樣的，然後檢視總結各方資料，就有了下面這一篇博文了。本文將從MySQL總體架構—>查詢執行流程—>語句執行順序來探討一下其中的知識。一、MySQL架構總覽架構最好看圖，再配上

十四.Spark SQL總結之spark日誌檔案資料形式的轉換

第一步.資料來源找到spark的日誌資料來源,在/root/spark/spark-2.0.2-bin-hadoop2.7/logs目錄下: 通過對檔案的讀取,統計其中資料的條數: val masterLog = sc.textFile("file:///r

ML學習筆記 2 之線性迴歸

背景本文以房價預測場景為線索，通過自實現多元線性迴歸演算法，從應用的角度，簡單梳理迴歸類演算法的評價指標及線性迴歸對資料的強解釋性；使用到的資料集為 sklearn 自帶的波士頓房產資料，基本資料結構介紹： import numpy as np import

es6筆記2之解構賦值,rest和展開運算子

1.陣列解構 var arr=[1,2,3] var [a,b,c]=arr 然後就可以給abc分別賦對應的值應用場景: 1.1 var [x,y]=[y,x] 變數互換 1.2 字串解構 var [a,b,c]='lha

ZooKeeper學習筆記-2---ZooKeeper部署與執行

1.環境配置系統環境：ZooKeeper對於不同平臺都有良好的支援，可以再目前大多數主流的作業系統上正常執行，例如GUN/Linux、Sun Solaris、Win32以及MacOSX等。有一點需要注意，由於FreeBSD系統的JVM對Java的NIO Se

Spark問題14之Spark stage retry問題

基因資料處理系列之SparkBWA 1.解釋 1.1 簡述另外發現，tmp裡面有臨時檔案沒有刪除，而且stage retry 未解決 2.記錄完整報錯： [Java_com_github_sparkbwa_BwaJni_

Java程式設計思想第四版讀書筆記——第四章控制執行流程

Java程式設計思想第四版第四章讀書筆記——控制執行流程。因為有些C++和android開發基礎，所以基礎知識筆記就不寫了，記些特別的需要注意的地方。第四章控制執行流程 1.true和false Java不允許我們將一個數字作為布林值使用，雖然這在C和C++裡是

#Thinking in Java閱讀筆記# 第四章控制執行流程

迭代：while/do-while/for迴圈，在迭代語句的主體部分，可用break/continue控制迴圈的流程。 break：跳出迭代，且不執行餘下部分 continue：跳出當前迭代，執行下一次迴圈無限迴圈：while(true)/for(;;)

spark筆記2之spark粗略執行流程

一、Spark粗略的執行流程

二、程式碼流程

1、建立一個SparkConf

2、建立一個上下文物件SparkContext

3、建立一個RDD

4、使用transformations類運算元進行各種各樣的資料轉換

5、使用Action類運算元觸發執行

6、關閉上下文物件

分散式檔案系統（File system）--載入RDD

transformations延遲執行--針對RDD的操作

Action觸發執行

相關推薦