Spark從入門到精通五----RDD的產生背景---建立方式及分割槽說明

阿新 • • 發佈：2019-01-29

交流QQ: 824203453

彈性分散式資料集RDD
1. RDD概述

1. 1. 產生背景

為了解決開發人員能在大規模的叢集中以一種容錯的方式進行記憶體計算，提出了RDD的概念，而當前的很多框架對迭代式演算法場景與互動性資料探勘場景的處理效能非常差, 這個是 RDDs 的提出的動機。

1. 1. 什麼是RDD

RDD是Spark的計算模型。RDD（Resilient Distributed Dataset）叫做彈性的分散式資料集合，是Spark中最基本的資料抽象，它代表一個不可變、只讀的，被分割槽的資料集。

操作RDD 就像操作本地集合一樣，有很多的方法可以呼叫，使用方便，而無需關心底層的排程細節。

1. 建立RDD
集合並行化建立（通過scala集合建立） scala中的本地集合—> spark RDD

val arr = Array(1,2,3,4,5)

val rdd = sc.parallelize(arr)

val rdd =sc.makeRDD(arr)

通過集合並行化方式建立RDD，適用於本地測試，做實驗

外部檔案系統，比如HDFS等

val rdd2 = sc.textFile("hdfs://hdp-01:9000/words.txt")

// 讀取本地檔案

val rdd2 = sc.textFile(“file:///root/words.txt”)

3）

從父RDD轉換成新的子RDD

呼叫Transformation類的方法，生成新的RDD

spark上的所有的方法，有一個專有的名詞，叫做運算元。

1. RDD的分割槽

說對rdd進行操作，實際上是操作的rdd中的每一個分割槽，分割槽的數量決定了並行的數量。

使用rdd.partitions.size檢視分割槽數量。

如果從外部建立RDD，比如從hdfs中讀取資料，正常情況下，分割槽的數量是和我們讀取的檔案的block塊數量是一致的，但是如果只有一個block 塊，那麼分割槽數量是2。也就是說最低的分割槽數量是2。

如果是集合並行化建立得到的rdd，分割槽的數量，預設的和最大可用的cores數量

相等。

（--total-executor-cores > 可用的cores? 可用的cores:--total-executor-cores）

通過集合並行化建立的rdd是可以任意修改分割槽的數量的。

交流QQ: 824203453

Spark從入門到精通五----RDD的產生背景---建立方式及分割槽說明

交流QQ: 824203453 彈性分散式資料集RDD RDD概述產生背景為了解決開發人員能在大規模的叢集中以一種容錯的方式進行記憶體計算，提出了RDD的概念，而當前的很多框架對迭代式演算法場景與互動性資料探勘場景的處理效能非常

Spark從入門到放棄---RDD

什麼是Spark？關於Spark具體的定義，大家可以去閱讀官網或者百度關於Spark的詞條，在此不再贅述。從一個野生程式猿的角度去理解，作為大資料時代的一個準王者，Spark是一款主流的高效能分散式計算大資料框架之一，和MapReduce，Hive，Flink等其他大資料框架一起支撐了大資料處理方案的一片

Spark從入門到精通六------RDD的運算元

RDD程式設計API RDD運算元運算元是RDD中定義的方法，分為轉換(transformantion)和動作(action)。Tranformation運算元並不會觸發Spark提交作業，直至Action運算元才提交任務執行，這是一個延遲計算的設計技巧，

Spark從入門到精通（一）

什麼是Spark 大資料計算框架離線批處理大資料體系架構圖（Spark） Spark包含了大資料領域常見的各種計算框架：比如Spark Core用於離線計算，Spark SQL用於互動式查詢，Spark Streaming用於實時流式計算，Spark MLib用於機器學習，Spark

spark從入門到放棄六: RDD 持久化原理

文章地址：http://www.haha174.top/article/details/252484 spark 中一個非常重要的功能特性就是可以將RDD 持久化到記憶體中。當對RDD進行持久化操作時，每個節點都會將自己操作的RDD的partition持久化

Spark從入門到精通三------scala版本的wordcount---java版本的wordcount----java-lambda版本的wordcount

交流QQ: 824203453 spark shell僅在測試和驗證我們的程式時使用的較多，在生產環境中，通常會在IDE中開發程式，然後打成jar包，然後提交到叢集，最常用的是建立一個Maven專案，利用Maven來管理jar包的依賴。交流QQ:

Spark視頻教程|Spark從入門到上手實戰

sparkSpark從入門到上手實戰網盤地址：https://pan.baidu.com/s/1uLUPAwsw8y7Ha1qWGjNx7A 密碼：m8l2備用地址（騰訊微雲）：https://share.weiyun.com/55RRnmc 密碼：8qywnp 課程是2017年錄制，還比較新，還是有學習的價

spark從入門到放棄十二: 深度剖析寬依賴與窄依賴

文章地址：http://www.haha174.top/article/details/256658 根據hello world 的例子介紹一個什麼是寬依賴和窄依賴。窄依賴：英文全名，Narrow Dependence.什麼樣的情況，叫做窄依賴呢？一

spark從入門到放棄一: worldcount-java

<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <spark.vers

spark從入門到放棄之分散式執行jar包

scala程式碼如下： import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ /** * 統計字元出現

spark從入門到放棄三十三:Spark Sql(6)hive sql 案例查詢分數大於80分的同學

DROP TABLE IF EXISTS student_info"); sqlContext.sql("CREATE TABLE IF NOT EXISTS student_info (name STRING ,age INT)"); System.out.println(

spark從入門到放棄三十二:Spark Sql(5)hive sql 簡述

1 簡述 Spark Sql 支援對Hive 中儲存的資料進行讀寫。操作Hive中的資料時，可以建立HiveContext,而不是SqlContext.HiveContext 繼承自SqlContext,但是增加了在Hive元資料庫中查詢表，以及用Hi

手把手教你ExtJS從入門到放棄——篇一 (學習資源獲取及姐介紹)

上一家公司欠六個億涼了，剛進新的公司不久，經理說不久後有關於ExtJS的介面需要修改，於是找到資料開始學老慣例，免費分享一波學習資源（吐槽下：那些分享資源要C幣的小夥子，每次浪費我時間去淘寶買）連結：https://pan.baidu.com/s/1KBKVd7d7

Flask入門（五）~request模組的屬性及上下文

上下文：相當於一個容器，儲存了 Flask 程式執行過程中的一些資訊。 Flask中有兩種上下文，請求上下文和應用上下文請求上下文(request context) 在 flask 中，可以直接在檢視函式中使用 request 這個物件進行獲取相關資料，而 request 就是請求

RDD的建立方式及注意事項

1 RDD的建立方式 1.1 SparkContext’s parallelize（並行化集合）並行化集合通過呼叫SparkContext的並行化方法在驅動程式（Scala Seq）中的現有集合上建立的。複製集合的元素以形成可並行操作的分散式資料集。

react.js從入門到精通（五）——組件之間的數據傳遞

efault def 通道 span 代碼 serve urn div mar 一、組件之間在靜態中的數據傳遞從上面的代碼我們可以看出，兩個組件之間的數據是分離，但如果我們有某種需求，將數據從一個組件傳到另一個組件中，該如何實現？場景設計：將Home.js中的Home

osgi.net從入門到精通系列之五

完整我們問題 eid aps 加載 .net 周期 switch 宿主模塊宿主模塊是能夠向外界獨立暴露它提供的模塊。它能夠被UIOSP安裝、啟動、停止和卸載，具有獨立的類型空間以及相應的類加載器，擁有完整的生命周期。我們可以在模塊清單文件給一個宿主模塊定義起始狀

Matlab從入門到精通（五）--常用函式

1、傅立葉(Fourier)變換及拉普拉斯(Laplace)變換在MATLAB中，進行傅立葉變換的函式是： fourier(f,x,t)：求函式f(x)的傅立葉像函式F(t)。 ifourier(F,t,x)：求傅立葉像函式F(t)的原函式f(x)。在MATLA

海思Hi3519A MPP從入門到精通（五 YUV影象格式）

1. YUV簡介 YUV格式有三大類：planar，packed，semi-planar。對於planar的YUV格式，先連續儲存所有畫素點的Y，緊接著儲存所有畫素點的U，隨後是所有畫素點的V。對於packed的YUV格式，每個畫素點的Y,U,V是連續交叉儲存的。對於semi-

Spark從入門到精通五----RDD的產生背景---建立方式及分割槽說明

相關推薦