1. 程式人生 > >spark的RDDAPI總結

spark的RDDAPI總結

adding 所有 align gate 過濾 AC 新的 reduce 去掉

 下面是RDD的基礎操作API介紹:

操作類型

函數名

作用

轉化操作

map()

參數是函數,函數應用於RDD每一個元素,返回值是新的RDD

flatMap()

參數是函數,函數應用於RDD每一個元素,將元素數據進行拆分,變成叠代器,返回值是新的RDD

filter()

參數是函數,函數會過濾掉不符合條件的元素,返回值是新的RDD

distinct()

沒有參數,將RDD裏的元素進行去重操作

union()

參數是RDD,生成包含兩個RDD所有元素的新RDD

intersection()

參數是RDD,求出兩個RDD的共同元素

subtract()

參數是RDD,將原RDD裏和參數RDD裏相同的元素去掉

cartesian()

參數是RDD,求兩個RDD的笛卡兒積

行動操作

collect()

返回RDD所有元素

count()

RDD裏元素個數

countByValue()

各元素在RDD中出現次數

reduce()

並行整合所有RDD數據,例如求和操作

fold(0)(func)

和reduce功能一樣,不過fold帶有初始值

aggregate(0)(seqOp,combop)

和reduce功能一樣,但是返回的RDD數據類型和原RDD不一樣

foreach(func)

對RDD每個元素都是使用特定函數

spark的RDDAPI總結