1. 程式人生 > >SPARK 入門筆記

SPARK 入門筆記

bin combine 核心 pre 細節 part api 而且 pri

1、Spark基於內存進行運算

2、Spark核心是SprintContext,是程序的入口

3、RDDs是提供抽象的數據集,通過RDDS可以方便對分布在各個節點的數據進行計算,而且忽略細節

4、RDDs與Stream API

5、RDDs采用類似延時加載,計算功能

6、RDDs的combineByKey函數是一個較核心的函數:如下

def combineByKey[C](  
      createCombiner: V => C,  
      mergeValue: (C, V) => C,  
      mergeCombiners: (C, C) => C,  
      partitioner: Partitioner,  
      mapSideCombine: Boolean 
= true, serializer: Serializer = null)

SPARK 入門筆記