1. 程式人生 > >SparkStreaming(4):Discretized Streams (DStreams)理解

SparkStreaming(4):Discretized Streams (DStreams)理解

參考:http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html#discretized-streams-dstreams

1.概念


(1)DStreams是一個連續的資料流,可以通過兩種方式產生:資料來源來的輸入資料流,或者處理後的資料來源的資料。

(2)DStreams是一系列的RDD構成的。其中RDD包含了每個interval間隔的資料。(如下圖)

           

2.特點


(1)每個作用在DStream的操作,都會作用在其中所有的RDDs。例如,每個作用在DStreams的flatMap操作,都會作用在其中的每個RDD上。(圖下圖)

        

(2)DStream中的RDDs是使用Spark engine進行運算的。