spark RDD collect()

阿新 • • 發佈：2019-01-10

collect的作用
Spark內有collect方法，是Action操作裡邊的一個運算元，這個方法可以將RDD型別的資料轉化為陣列，同時會從遠端叢集是拉取資料到driver端。
已知的弊端
首先，collect是Action裡邊的，根據RDD的惰性機制，真正的計算髮生在RDD的Action操作。那麼，一次collect就會導致一次Shuffle，而一次Shuffle排程一次stage，然而一次stage包含很多個已分解的任務碎片Task。這麼一來，會導致程式執行時間大大增加，屬於比較耗時的操作，即使是在local模式下也同樣耗時。
其次，從環境上來講，本機local模式下執行並無太大區別，可若放在分散式環境下執行，一次collect操作會將分散式各個節點上的資料匯聚到一個driver節點上，而這麼一來，後續所執行的運算和操作就會脫離這個分散式環境而相當於單機環境下執行，這也與Spark的分散式理念不合。
最後，將大量資料彙集到一個driver節點上，並且像這樣val arr = data.collect()

，將資料用陣列存放，佔用了jvm堆記憶體，可想而知，是有多麼輕鬆就會記憶體溢位。
如何規避
若需要遍歷RDD中元素，大可不必使用collect，可以使用foreach語句；
若需要列印RDD中元素，可用take語句，返回資料集前n個元素，data.take(1000).foreach(println)，這點官方文件裡有說明；
若需要檢視其中內容，可用saveAsTextFile方法。
總之，單機環境下使用collect問題並不大，但分散式環境下儘量規避，如有其他需要，手動編寫程式碼實現相應功能就好。
補充：
collectPartitions：同樣屬於Action的一種操作，同樣也會將資料彙集到Driver節點上，與collect區別並不是很大，唯一的區別是：collectPartitions產生資料型別不同於collect，collect是將所有RDD彙集到一個數組裡，而collectPartitions是將各個分割槽內所有元素儲存到一個數組裡，再將這些陣列彙集到driver端產生一個數組；collect產生一維陣列，而collectPartitions產生二維陣列。

Spark RDD collect與collectPartitions

確切的應該說是RDD collect^_^ 1.collect的作用 Spark內有collect方法，是Action操作裡邊的一個運算元，這個方法可以將RDD型別的資料轉化為陣列，你可以隨時val arr = data.collect（），將RDD型別資

spark RDD collect()

collect的作用 Spark內有collect方法，是Action操作裡邊的一個運算元，這個方法可以將RDD型別的資料轉化為陣列，同時會從遠端叢集是拉取資料到driver端。已知的弊端首先，collect是Action裡邊的，根據RDD的惰性機制，

【spark 深入學習 03】Spark RDD的蠻荒世界

解釋不難特性 bsp resid 易懂優化方式序列 RDD真的是一個很晦澀的詞匯，他就是伯克利大學的博士們在論文中提出的一個概念，很抽象，很難懂；但是這是spark的核心概念，因此有必要spark rdd的知識點，用最簡單、淺顯易懂的詞匯描述。不想用學術話的語言來

Spark RDD

存儲系統 orm cnblogs 集合 ans transform 匹配優化進行梗概： RDD 其實就是分布式的元素集合。在Spark中，對數據的所有操作不外乎創建RDD、轉化已有RDD 以及調用RDD 操作進行求值。而在這一切背後，Spark會自動將

Spark RDD操作記錄(總結)

操作記錄 collect () 求和 bsp 數據排序 red cas 創建ListintRDD = sc.parallelize(List(1,2,3,4,5))過濾包含stringRDD.filter(_.contains("a")).collect()去重strin

Spark RDD轉換為DataFrame

person true line ted struct ger fields text san #構造case class，利用反射機制隱式轉換 scala> import spark.implicits._ scala> val rdd= sc.text

Spark RDD(Resilient Distributed Dataset)

com hdf 函數式 set 分享圖片 strong .cn 任務 apr 基於數據集的處理：從物理存儲上加載數據，然後操作數據，然後寫入物理存儲設備。比如Hadoop的MapReduce。缺點：1.不適合大量的叠代 2. 交互式查詢 3. 不能復用曾

Spark RDD初探（一）

serializa 只有一個 broadcast each函數 flat -s cover med 溢出本文概要本文主要從以下幾點闡述RDD，了解RDD 什麽是RDD？兩種RDD創建方式向給spark傳遞函數Passing Functions to Spark 兩

spark RDD，DataFrame,DataSet 介紹

列式存儲 ren gre rds 包含執行這一 ces 中一彈性分布式數據集（Resilient Distributed Dataset，RDD） RDD是Spark一開始就提供的主要API，從根本上來說，一個RDD就是你的數據的一個不可變的分布式元素集

Spark RDD詳解

Spark RDD 大數據大數據開發 1、RDD是什麽RDD：Spark的核心概念是RDD (resilientdistributed dataset)，指的是一個只讀的，可分區的分布式數據集，這個數據集的全部或部分可以緩存在內存中，在多次計算間重用。為什麽會產生RDD？（1）傳統的Ma

Spark RDD算子實戰

大數據 Spark RDD 算子 [TOC] Spark算子概述 RDD：彈性分布式數據集，是一種特殊集合、支持多種來源、有容錯機制、可以被緩存、支持並行操作，一個RDD代表多個分區裏的數據集。 RDD有兩種操作算子： Transformation（轉換）：Transformati

Spark筆記整理（五）：Spark RDD持久化、廣播變量和累加器

大數據 Spark [TOC] Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一個功能特性就是可以將RDD持久化在內存中。當對RDD執行持久化操作時，每個節點都會將自己操作的RDD的partition持久化到內存中，並且在之後對該RDD的反復使用中，直接使用內存緩存的parti

[Spark]-RDD

poi persist TE rep art line IT 16px 集中 1.什麽是RDD 　　Resilient Distributed Dataset(RDD),彈性的分布式數據集. 　　分布式數據集,是指數據集會以patition塊的方式,存儲在多個節點上.

[Spark]-RDD之創建

AD 簡單 spa 訪問重要 ron 例如記錄 table 1.RDD的創建　　1.1 從一個本地的Scala集合創建　　　　//聲明一個本地集合　　val data = Array(1, 2, 3, 4, 5) 　　val distData = sc.para

spark==RDD

park 多少基本 ges shc set hdf 結束 ase 在spark的簡介中我們已經說過了，為了讓spark的處理速度加快，其中有一個解決辦法就是引入了一個分布式的彈性數據集--RDD那什麽是RDD：RDD(Resilient Distributed Datas

spark rdd aggregate (python語言)

aggregate ( zeroValue , seqOp , combOp ) seqOp操作會聚合各分割槽中的元素，然後combOp操作把所有分割槽的聚合結果再次聚合，兩個操作的初始值都是zeroValue. &n

spark RDD常用運算元（一）

- filter 演算法解釋 filter 函式功能是對元素進行過濾，對每個元素應用 f 函數，返回值為 true 的元素在RDD 中保留，返回值為 false 的元素將被過濾掉。內部實現相當於生成 FilteredRDD

spark RDD運算元 parallelize，makeRDD，textFile

- parallelize 將一個存在的集合，變成一個RDD。這種方式試用於學習spark和做一些spark的測試第一個引數一是一個 Seq集合第二個引數分割槽數 var array = List(1, 2, 3, 4, 5, 6, 7

Spark- RDD持久化

官方原文： RDD Persistence One of the most important capabilities in Spark is persisting (or caching) a dataset in memory across operat

Spark RDD之Partitioner

概述 Partitioner是shuffle過程中key重分割槽時的策略，即計算key決定k-v屬於哪個分割槽，Transformation是寬依賴的運算元時，父RDD和子RDD之間會進行shuffle操作，shuffle涉及到網路開銷，由於父RDD和子RDD中的partition是

spark RDD collect()

相關推薦