【Spark】--Spark中RDD的理解

阿新 • • 發佈：2018-12-17

1.什麼是RDD？

RDD：RDD是Spark的計算模型 RDD（Resilient Distributed Dataset）叫做彈性的分散式資料集合，是Spark中最基本的資料抽象，它代表一個不可變、只讀的，被分割槽的資料集。

操作RDD就像操作本地集合一樣，資料會被分散到多臺機器中（以分割槽為單位）。

RDD是Spark中的一個基本抽象（可以理解為代理）

有了RDD，就可以像操作本地的集合一樣，有很多的方法可以呼叫，使用方便，而無需關心底層的排程細節。

2.RDD操作型別

RDD中運算元可分為兩類：

RDD支援的兩中型別的操作：

轉換（Transformation）：現有的RDD通過轉換生成一個新的RDD

。lazy模式，延遲執行。

轉換的函式：map，filter，flatmap，groupByKey，reduceBykey，aggregateByKey，union，join，coalesce等等。

動作（Action）：在RDD上執行計算，並返回結果給驅動程式（Drive）或寫入檔案系統。

動作操作函式：reduce,collect,count,frist,take,countByKey以及foreach等等。

collect該方法把資料收集到driver端 Array陣列型別

所有的transfromation只有遇到action才能執行。

當觸發執行action之後，資料型別就不再是RDD了，資料就會存到指定的檔案系統中，或者直接列印結果或者收集起來。

RDD操作流程示意：

RDD的執行邏輯：

如下圖所示，在Spark應用中，整個執行流程在邏輯上運算之間會形成有向無環圖。Action運算元觸發之後會將所有累積的運算元形成一個有向無環圖，然後由排程器排程該圖上的任務進行運算。

Spark的排程方式與MapReduce有所不同。Spark根據RDD之間不同的依賴關係切分形成不同的階段（Stage），一個階段包含一系列函式進行流水線執行。

圖中的A、B、C、D、E、F、G，分別代表不同的RDD，RDD內的一個方框代表一個數據塊。資料從HDFS輸入Spark，形成RDD A和RDD C，RDD C上執行map操作，轉換為RDD D，RDD B和RDD F

進行join操作轉換為G，而在B到G的過程中又會進行Shuffle。最後RDD G通過函式saveAsSequenceFile輸出儲存到HDFS中。

RDD的轉換與操作：

wordcount例項,檢視lazy特性。

只有在執行action時，才會真正開始運算，才能得到結果或儲存到檔案中。

3.建立RDD

1）集合並行化建立（通過scala集合建立）scala中的本地集合------> spark RDD

val arr=Array（1 to 10）

val rdd=sc.parallelize（arr）

val rdd=sc.makeRDD（arr）

//讀取外部檔案系統，比如HDFS等

val rdd2 = sc.textFile(“hdfs://hdp-nn-01:9000/words.txt”)

//讀取本地檔案

val rdd2 = sc.textFile(“file:///root/words.txt”)

3)從父RDD轉換成新的子RDD,最常用方式

呼叫Transformation 類的方法，生成新的RDD

4.RDD的分割槽：

rdd中和檔案切片相關的概念叫做分割槽，也就是說對rdd進行操作，實際上是操作的rdd中的每一個分割槽，分割槽的數量決定了並行的數量。

使用rdd.partitions.size或者rdd.partitions.length檢視分割槽數量。

【Spark】--Spark中RDD的理解

1.什麼是RDD？RDD：RDD是Spark的計算模型 RDD（Resilient Distributed Dataset）叫做彈性的分散式資料集合，是Spark中最基本的資料抽象，它代表一個不可變、只讀的，被分割槽的資料集。操作RDD就像操作本地集合一樣，資料會被分散到多臺

【轉載】Spark學習——spark中的幾個概念的理解及參數配置

program submit man 聯眾 tail 進行 orb 數據源 work 首先是一張Spark的部署圖：節點類型有： 1. master 節點：常駐master進程，負責管理全部worker節點。2. worker 節點：常駐worker進程，負責管理

【七】Spark SQL命令和Spark shell命令操作hive中的表

1.把hive的配置檔案hive-site.xml複製到spark/conf下。 2.啟動的時候帶上MySQL的連線驅動 Spark-shell命令使用 spark-shell是通過得到sparksession然後呼叫sql方法執行hive的sql。 cd /app/

【八】Spark Streaming 用foreachRDD把結果寫入Mysql中Local模式（使用Scala語言）

DStream 的foreachRDD是允許把資料傳送到外部檔案系統中。然而使用不當會導致各種問題。錯誤示範1：在driver建立連線，在woker使用。會報錯connection object not serializable。錯誤示範2：rdd每個記錄都建立連

蝸龍徒行-Spark學習筆記【四】Spark叢集中使用spark-submit提交jar任務包實戰經驗

一、所遇問題由於在IDEA下可以方便快捷地執行scala程式，所以先前並沒有在終端下使用spark-submit提交打包好的jar任務包的習慣，但是其只能在local模式下執行，在網上搜了好多帖子設定VM引數都不能啟動spark叢集，由於實驗任務緊急只能暫時

蝸龍徒行-Spark學習筆記【五】IDEA中叢集執行模式的配置

問題現象在IDEA中執行sparkPI，報錯： Exception in thread “main” org.apache.spark.SparkException: A master URL must be set in your configurati

【spark】Spark運算元：RDD基本轉換操作–map、flagMap、distinct

map將一個RDD中的每個資料項，通過map中的函式對映變為一個新的元素。輸入分割槽與輸出分割槽一對一，即：有多少個輸入分割槽，就有多少個輸出分割槽。 hadoop fs -cat /tmp/lxw1234/1.txthello worldhello sparkhello

【實踐】Spark RDD API實戰

map Applies a transformation function on each item of the RDD and returns the result as a new RDD. //3表示指定為3個Partitions v

【轉載】 Spark性能優化指南——基礎篇

否則內存占用是否進行優先邏輯我們流式字節數組前言開發調優調優概述原則一：避免創建重復的RDD 原則二：盡可能復用同一個RDD 原則三：對多次使用的RDD進行持久化原則四：盡量避免使用shuffle類算子原則五：使用map-side預聚

【總結】spark按文本格式和Lzo格式處理Lzo壓縮文件的比較

spark lzotextinputformat1、描述spark中怎麽加載lzo壓縮格式的文件2、比較lzo格式文件以textFile方式和LzoTextInputFormat方式計算數據，Running Tasks個數的影響 a.確保lzo文件所在文件夾中生成lzo.index索引文件 b.以

【轉】Spark Streaming和Kafka整合開發指南

thread ada 關系方法拷貝理解 1.2 reduce arr 基於Receivers的方法這個方法使用了Receivers來接收數據。Receivers的實現使用到Kafka高層次的消費者API。對於所有的Receivers，接收到的數據將會保存在Spark

【python】spark+kafka使用

設置消費 /usr tegra 情況下分布式文件系統默認 usr mina 網上用python寫spark+kafka的資料好少啊自己記錄一點踩到的坑~ spark+kafka介紹的官方網址：http://spark.apache.org/docs/latest

【轉載】Python 中的 if name == 'main' 該如何理解

一個知識如果協程運行 pat 執行開始參考資料轉自曠世的憂傷 http://blog.konghy.cn/2017/04/24/python-entry-program/ 程序入口對於很多編程語言來說，程序都必須要有一個入口，比如 C，C++，以及完全面向

【轉】C#中Func與Action的理解

.net ring UNC 簡單代碼操作不必要返回值 tps 原文地址：https://www.cnblogs.com/ultimateWorld/p/5608122.html Action 與 Func是.NET類庫中增加的內置委托，以便更加簡潔方便的使用委托。最

【Spark】Spark執行報錯Task not serializable

文章目錄異常資訊出現場景解決方案分析異常資訊 org.apache.spark.SparkException: Task not serializable Caused by: java.io.NotSerial

【Spark】Spark是什麼

簡短介紹下Spark 幾個關鍵詞：快速，通用，叢集計算平臺 Spark擴充套件了MapReduce計算模型，且支援更多計算模式，包含：互動式查詢流處理這裡的互動式，不是簡單的我們生活中理解的與裝置的互動。它的深意是：對於大規模資料集的處理，速度夠

【Spark】Spark Quick Start（快速入門翻譯）

本文主要是翻譯Spark官網Quick Start。只能保證大概意思，儘量保證細節。英文水平有限，如果有錯誤的地方請指正，輕噴快速入門（Quick Start）　　使用 Spark Shell 互動式程式設計　　　　基本操作　　　　更多關於 Dataset 的操作　　　　快取　　獨立

【Spark】Spark SQL, DataFrames and Datasets Guide(翻譯文，持續更新)

本文主要是翻譯Spark官網Spark SQL programming guide 。只能保證大概意思，儘量保證細節。英文水平有限，如果有錯誤的地方請指正，輕噴。目錄導航在右上角概述　　Spark SQL 是一個結構化資料處理的 Spark 模組。與基礎的 Spark RDD API 不同的是

【SPARK】Spark Streaming簡介

Spark Streaming可以整合多種輸入資料來源，如Kafka、Flume、HDFS甚至是普通的TCP套接字。經處理後的資料可儲存至檔案系統、資料庫、或顯示在儀表盤。 Spark Streaming執行流程 Spark Streaming的基本原理是將實時輸

【轉】【Spark】Spark 資料傾斜優化方法

大資料梅峰谷 2017-05-19 --------本節內容-------- 1.前言 2.Spark資料傾斜 2.1 資料傾斜現象 2.1.1 OOM錯誤 2.1.2 Spark執行緩慢 2.2 資料傾斜原理 2.3 資

【Spark】--Spark中RDD的理解

相關推薦