1. 程式人生 > >spark核心元件的核心

spark核心元件的核心

==>Spark Streaming 的核心:

Dstream這個資料結構有三塊比較重要:

父依賴
生成RDD的時間間隔
一個生成RDD的function

Dstream的概念:

       Discretized Stream是Spark Streaming的基礎抽象,代表持續性的資料流和經過各種Spark運算元操作後的結果資料流。DStream是一系列連續的RDD來表示。

==>Spark Sql 的核心:

DataFrame:

       dataframe是dataset的行的集合,本質是一個分散式的二維表,表:表資訊

DataSet:

       Dataset是分散式資料集合。