1. 程式人生 > >spark 教程一 RDD和核心概念

spark 教程一 RDD和核心概念

coalesce reg ntb red gre 保存 所有 lec 會有

1.RDD 的介紹

  RDD 是spark的核心概念,可以將RDD是做數據庫中的一張表,RDD可以保存任何類型的數據,可以用API來處理RDD及RDD中的數據,類似於Mapreduce, RDD 也有分區的概念。RDD是不可變的可以變換(Transformation)操作RDD,但是這個變換返回的是一個全新的RDD,原先的RDD保持不變

2.RDD的兩種操作 Transformation 和 Action

  transformation 變換,變換的返回值是一個新的RDD集合,而不是單個值調用一個變換方法,不會有任何求職計算,它只獲取一個RDD作為參數,返回一個全新的RDD,變換函數包括,map、filter、flatMap、groupByKey、reduceByKey、aggregateByKay、pipe、coalesce等

  action 行動,行動操作計算並返回一個新的值,當在RDD中操作一個行動函數時,會在這一刻計算全部的數據處理和查詢,並返回所有的結果,行動操作包括,redeuce、collect、count、first、take、countByKey、foreach等

spark 教程一 RDD和核心概念