1. 程式人生 > >Spark Streaming(二十四)初識

Spark Streaming(二十四)初識

定義

SparkStreamingSpark核心API的擴充套件,類似與Apache Storm,但是它不是真正的是實時的,它是準實時的,也就是單位時間內做小批量的處理,它是可伸縮的、高可用的、容錯的、用來處理流式資料的。它能夠從Kafka、Flume、Kinesis、TCP socket中載入資料,載入進來的資料可以用map、reduce、join、window等抽象函式進行處理,最後處理的結果資料可以Push到外部的檔案系統、資料庫或者是實時的進行前端的展示。 在這裡插入圖片描述

架構模型

它的內部工作原理如下圖所示,SparkStreaming接受到資料流以後,然後輸入資料會被分成批處理,最終交給Spark

引擎去處理,最終批量生成最終結果流。 在這裡插入圖片描述 SparkStreaming提供了一種離散流的或者DStream的高階抽象,這種抽象代表了連續的資料流。DStream可以從Kafka、Flume、Kinesis等資料來源來建立。DStream內部其實就是一系列的RDD在這裡插入圖片描述