Spark Transformation和Action運算元速查表

阿新 • • 發佈：2019-02-12

Transformation運算元

Transformation運算元	作用
map(func)	返回一個新的分散式資料集，其中每個元素都是由源RDD中每一個元素經過func函式轉換得到的
filter(func)	返回一個新的資料集，其中包含的元素來自源RDD中元素經過func函式過濾後的結果（func函式返回true的結果）
flatMap(func)	類似於map, 但是每個元素可以對映到0到n個輸出元素(func函式必須返回的是一個Seq而不是單個元素)
mapPartitions(func)	類似於map, 但是它是基於RDD的每個Partition(或者資料block)獨立執行，所以如果RDD包含元素型別為T，則func函式必須是Iterator => Iterator 的對映函式
mapPartitionsWithIndex(func)	類似於mapPartitions，只是func多了一個整型的分割槽索引值，因此如果RDD包含元素型別為T，則func必須是Iterator => Iterator的對映函式
sample(withReplacement, fraction, seed)	取樣部分(比例取決於fraction)資料，同時可以指定是否使用回置取樣(withReplacement)，以及隨機數種子(seed)
union(otherDataset)	返回源資料集和引數資料集(otherDataset)的並集
intersection(otherDataset)	返回源資料集和引數資料集(otherDataset)的交集
distinct([numTasks])	返回對源資料集做元素去重後的新的資料集
groupByKey([numTasks])	必須應用於鍵值對的元素型別，如源RDD包含(K,V)對，則該運算元返回一個新的資料集包含(K, Iterator)對。注意：如果你需要按Key分組聚合的話(如sum或average)，推薦使用reduceByKey或者aggregateByKey以獲得更好的效能。* 注意*：預設情況下，輸出計算的並行度取決於源RDD的分割槽個數。當然，你也可以通過設定可選引數numTasks來指定並行任務的個數
reduceByKey(func, [numTasks])	如果源RDD包含元素型別為(K,V)對，則該運算元也返回包含(K, V)對的RDD，只不過每個Key對應的Value是經過func函式聚合後的結果，而func函式本身是一個(V, V) => V的對映函式。另外，和groupByKey類似，可以通過可選引數numTasks指定reduce任務的個數
aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])	如果源RDD包含(K, V)對，則返回的新RDD包含(K, V)對，其中每個Key對應的Value都是由combOp函式和一個”0”值zeroValue聚合得到。允許聚合後Value型別和輸入Value型別不同，避免了不必要的開銷。和groupByKey類似，可以通過可選引數numTasks指定reducer任務的個數
sortByKey([ascending], [numTasks])	如果源RDD包含元素型別(K, V)對，其中K可以排序，則返回新的RDD包含(K, V)對，並按照K進行排序(由ascending引數決定是升序還是降序)
join(otherDataset, [numTasks])	如果源RDD包含元素型別(K, V)且引數RDD(otherDataset)包含元素型別(K, W), 則返回的新RDD中將包含內聯後Key對應的(K, (V, W)對。外關聯(Outer joins)操作請參考leftOuterJoin、rightOuterJoin以及fullOuterJoin運算元)
cogroup(otherDataset, [numTasks])	如果源RDD包含元素型別(K, V)且引數RDD(otherDataset)包含元素型別(K, W)，則返回的新的RDD中包含(K, (Iterable, Iterable))。該運算元還有個別名：groupWith
cartesian(otherDataset)	如果源RDD包含元素型別T且引數RDD(otherDataset)包含元素型別U，則返回的新RDD包含前二者的笛卡爾積，其元素型別為(T, U)對
pipe(command, [envVars])	以shell命令列管道處理RDD的每個分割槽，如：Perl或者bash指令碼。RDD中每個元素都將依次寫入程序的標準輸入(stdin)，然後按行輸出到標準輸出(stdout)，每一行輸出字串即成為一個新的RDD元素
coalesce(numPartitions)	將RDD的分割槽數減少到numPartitons。當以後大資料集被過濾成小資料集後，減少分割槽，可以提升效率
repartition(numPartitions)	將RDD資料重新混洗(reshuffle)並隨機分步到新的分割槽中，使資料分佈更均衡，新的分割槽個數取決於numPartitions。該運算元總是需要通過網路混洗所有資料。
repartitionAndSortWithPartitions(partitioner)	根據Partitioner(spark自帶有HashPartioner和RangePartitoner等)重新分割槽RDD，並且在每個結果分割槽中按Key做排序。這是一個組合運算元，功能上等價於先reparation再在每個分割槽內排序，但這個運算元內部做了優化(將排序過程下推到混洗同時進行)，因此效能更好

Action運算元

Action運算元	作用
reduce(func)	將RDD中元素按func函式進行聚合，func函式是一個(T, T) => T 的對映函式，其中T為源RDD的元素型別，並且func需要滿足交換律和結合律以便支援平行計算
collect()	將資料集中所有元素以陣列形式返回驅動器(driver)程式。通常用於在RDD進行了filter或其他過濾後，將足夠小的資料子集返回到驅動器記憶體中，否則會OOM
count()	返回資料集中元素個數
first()	返回資料中首個元素（類似於take(1)）
take(n)	返回資料集中前n個元素
takeSample(withReplacement, num, [seed])	返回資料集的隨機取樣子集，最多包含num個元素，withReplacement表示是否使用回置取樣，最後一個引數為可選引數seed，隨機數生成器的種子
takeOrdered(n, [ordering])	按元素排序（可以通過ordering自定義排序規則）後，返回前n個元素
saveAsTextFile(path)	將資料集中元素儲存到指定目錄下的文字檔案中（或者多個文字檔案），支援本地檔案系統、HDFS或者其他Hadoop支援的檔案系統。儲存過程中，Spark會呼叫每個元素的toString方法，將結果儲存成檔案中的一行。
saveAsSequenceFile(path)	將資料集中元素儲存到指定目錄下的Hadoop Sequence檔案中，支援本地檔案系統、HDFS或者其他任何Hadoop支援的檔案系統。適用於實現了Writeable介面的鍵值對RDD。在Scala中，同樣也適用於能夠被隱式轉換為Writeable的型別
saveAsObjectFile(path)	將RDD元素以Java序列化的格式儲存成檔案，儲存結果的檔案可以使用SparkContext.objectFile來讀取。
countByKey()	只能適用於包含鍵值對(K, V)的RDD，並返回一個雜湊表，包含(K, Int)對，表示每個Key的個數。
foreach(func)	在RDD的每個元素上執行func函式。通常被用於累加操作，如：更新一個累加器或者和外部儲存系統互操作。注意：用foreach操作除了累加器之外的變數可能導致未定義的行為，更詳細請參考“理解閉包”。

Spark Transformation和Action運算元速查表

Transformation運算元 Transformation運算元作用 map(func) 返回一個新的分散式資料集，其中每個元素都是由源RDD中每一個元素經過fun

spark transformation和action運算元

spark transformation和action的運算元 map(func) 返回一個新的分散式資料集，由每個原元素經過func函式處理後的新元素組成 filter(func) 返回一個新的資料集，由經過func函式處理後返回值為true的原元素組

各大瀏覽器 CSS3 和 HTML5 相容速查表

支援 CSS3 和 HTML5 的瀏覽器越來越多，甚至包括最新版的 IE，當然，所謂支援僅僅是部分支援，因為 CSS3 和 HTML5 的W3C 規範都尚未形成。如果你現在就希望使用 CSS3 和 HTML5 建立你的站點，至少要對各個瀏覽器對這兩種新技術的支援情況有一個

可能是史上最全的機器學習和Python（包括數學）速查表

最好 pytorch 資料 sub mat 出了 statistic 遇到 FQ 新手學習機器學習很難，就是收集資料也很費勁。所幸Robbie Allen從不同來源收集了目前最全的有關機器學習、Python和相關數學知識的速查表大全。強烈建議收藏！機器學習有很多方面

總結常用的Transformation運算元和Action運算元，及基本用法

只有是Action時，才會執行立即操作。 Transformation是 lazy的操作，不會立即執行，執行Transformation的運算元時，會返回一個新的RDD,依賴上一個RDD transformation： 1、sortBy ：對於RDD的是非元組型，rdd1.soreB

Spark程式設計指南之一：transformation和action等RDD基本操作

文章目錄基本概念開發環境程式設計實戰初始化SparkContext RDD的生成 RDD基本操作 Key-Value Pairs Transformations f

Spark核心程式設計建立RDD及transformation和action詳解和案例

建立RDD 進行Spark核心程式設計時，首先要做的第一件事，就是建立一個初始的RDD。該RDD中，通常就代表和包含了Spark應用程式的輸入源資料。然後在建立了初始的RDD之後，才可以通過Spark Core提供的transformation運算元，對該RD

transformation和action的運算元簡介

transformation運算元 map(func) 返回一個新的分散式資料集，由每個原元素經過func函式處理後的新元素組成 filter(func) 返回一個新的資料集，由經過func函式處理後返回值為true的原元素組成 flatMap(func) 類似於map，但是每一個輸入元素，會

Spark的transformation和action算子簡介

一個算子 filter true 組成實現並行 ont key transformation算子 map(func) 返回一個新的分布式數據集，由每個原元素經過func函數處理後的新元素組成 filter(func) 返回一個新的數據集，由經過func函數處理後返回

這可能是AI、機器學習和大資料領域覆蓋最全的一份速查表

https://mp.weixin.qq.com/s?__biz=MjM5ODE1NDYyMA==&mid=2653390110&idx=1&sn=b3e5d6e946b719d08b67d9ebf88283fe&chksm=bd1c3d0d8a6bb41bf05a8ccc9f

spark常用函式：transformation和action

1、RDD提供了兩種型別的操作：transformation和action 所有的transformation都是採用的懶策略，如果只是將transformation提交是不會執行計算的，計算只有在action被提交的時候才被觸發。 1）transformation操作：得

Spark 的transformation和action操作

1.前言： RDD：彈性分散式資料集，是一種特殊集合、支援多種來源、有容錯機制、可以被快取、支援並行操作，一個RDD代表多個分割槽裡的資料集 RDD有兩種操作運算元： Transformation（轉換）：Transformation屬於

HTML實體符號代碼速查表（轉載）

plus tro agg 小於號 times 問號大於號豎線 table 1.特色的 ? © ? 版權標誌 | | 豎線，常用作菜單或導航中的分隔符 · · · 圓點，有時被用來作為菜單分隔符 ↑ &

常用正則表達式速查表

tle 效果 table 邏輯改變小寫 body 換行符特殊元字符(配匹字符串用) 字符補集(相反的) . 除換行符（\n）以外的任意字符 \n（換行） \w 單詞字符 (指大小寫字母、0-9的數字、下劃線、漢字) \W \d 數字(0-

排序算法復雜度速查表

排序 table borde apt 長度 d+ itl ont 時間復雜度各種常用排序算法類別排序方法時間復雜度空間復雜度穩定性平均情況最好情況最壞情況輔助存儲插入排序直接插入 O(n2) O

Git 常用命令速查表

rtl stage 協議發布 orm parse 不同交互 row p { margin-bottom: 0.25cm; direction: ltr; line-height: 120%; text-align: justify } a:link { color: r

windows端口號速查表

ram 網絡驗證 hot col deep 2個 smtps fse nbsp windows端口號速查表 1 tcpmux TCP 端口服務多路復用 5 rje 遠程作業入口 7 echo Echo 服務 9 discard 用於連接測試的空服務

vim基本命令速查表

bsp 編譯 cmd index sea print sheet 自動 eas 來源：https://github.com/skywind3000/awesome-cheatsheets/blob/master/editors/vim.txt ##############

bash基本命令速查表

參數 whois 初始去重排序 example acer 特定 http 移除來源：https://github.com/skywind3000/awesome-cheatsheets/blob/master/languages/bash.sh #########

Git 常用命令速查表(圖文+表格)

祖先 pda 數量 ply o-c 有用 github map align 一、 Git 常用命令速查 git branch 查看本地所有分支git status 查看當前狀態 git commit 提交 git branch -a 查看所有的分支git branch -r

Spark Transformation和Action運算元速查表

Transformation運算元

Action運算元

相關推薦