Structured-Streaming+kafka流式處理

阿新 • • 發佈：2019-01-14

Maven專案配置spark Structured Streaming+kafka

結構化資料流中的關鍵思想是將實時資料流視為一個不斷附加的表。這導致新的流處理模型與批處理模型非常相似。您將把流式計算表示為標準批量查詢，就像在靜態表上一樣，Spark將它作為無界輸入表上的增量查詢來執行。讓我們更詳細地瞭解這個模型。

基本概念

將輸入資料流視為“輸入表”。每個到達流中的資料項就像一個新的行被新增到輸入表中。

對輸入的查詢將生成“結果表”。每一個觸發間隔（比如說，每隔1秒），新的行會被新增到輸入表中，最終更新結果表。每當結果表得到更新時，我們都希望將已更改的結果行寫入外部接收器。

“輸出”被定義為寫出到外部儲存器的內容。輸出可以用不同的模式定義：

　　完整模式 - 整個更新後的結果表將被寫入外部儲存器。由儲存聯結器決定如何處理整個表格的寫入。

　　追加模式 - 自上次觸發後，只有在結果表中追加的新行才會寫入外部儲存器。這僅適用於預期不會更改結果表中現有行的查詢。

　　　更新模式 - 只有自上次觸發以來在結果表中更新的行才會寫入外部儲存器（自Spark 2.1.1起可用）。請注意，這與完整模式不同之處在於，此模式僅輸出自上次觸發後更改的行。如果查詢不包含聚合，則它將等同於“追加”模式。　　　

建立kafka整合連結　　

事件時間視窗操作

滑動事件時間視窗上的聚合對結構化流式處理來說很簡單，並且與分組聚合很相似。在分組聚合中，為使用者指定的分組列中的每個唯一值維護聚合值（例如計數）。在基於視窗的聚合中，對於行所在的事件時間所在的每個視窗，都會保留聚合值。讓我們用插圖來理解這一點。

想象一下，我們的快速示例已被修改，現在流包含行和生成行的時間。我們希望在10分鐘的時間內對單詞進行計數，而不是每5分鐘更新一次。也就是說，在10分鐘的時間12:00 - 12:10，12:05 - 12:15，12:10 - 12:20等之間收到的文字的字數統計。請注意，12:00 - 12:10表示資料在12:00之後但在12:10之前抵達。現在，考慮在12:07收到的一個詞。這個詞應該遞增對應於兩個視窗12:00 - 12:10和12:05 - 12:15的計數。因此計數將由兩個分組鍵（即單詞）和視窗（可以從事件時間計算）索引。

http://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html

由於這個視窗類似於分組，在程式碼中，你可以使用groupBy()和window()操作來表達視窗聚集。

Spark和kafka的maven配置

<groupId>structed-Streaming04</groupId>

<artifactId>spark_01</artifactId>

<version>1.0-SNAPSHOT</version>

<groupId>org.apache.spark</groupId>

<artifactId>spark-sql-kafka-0-10_2.11</artifactId>

</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-sql_2.11</artifactId>

</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-core_2.11</artifactId>

</dependency>

<groupId>org.apache.kafka</groupId>

<artifactId>kafka-clients</artifactId>

</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-tags_2.11</artifactId>

</dependency>

<groupId>org.apache.kafka</groupId>

<artifactId>kafka_2.11</artifactId>

</dependency>

</dependencies>

版本號必須嚴格按照官方文件的配置

Spark-sql-kafka版本為 2.3.0

Kafka版本為0.10.0.1

Scala版本為2.11.8

Maven官網配置

http://mvnrepository.com/artifact/org.apache.spark/spark-sql-kafka-0-10_2.11/2.3.0

Structured-Streaming+kafka流式處理

Maven專案配置spark Structured Streaming+kafka

Spark和kafka的maven配置

Structured-Streaming+kafka流式處理

Structured Streaming + Kafka Integration Guide 結構化流+Kafka集成指南 (Kafka broker version 0.10.0 or higher)

kafka stream流式處理

支援流式處理ACID事務！Flink團隊開源新作Streaming Ledger

流式處理框架對比

流式處理新秀Flink原理與實踐

流式處理框架storm淺析

python 使用yield進行數據的流式處理

【線上直播】流式處理新秀Flink原理與實踐

大資料實時流式處理引擎比較

一個一站式流式處理雲平臺解決方案

#Wormhole# （開源）流式處理平臺設計思想

Spark Structured Streaming + Kafka使用筆記

大資料Strom流式處理的ACK機制

Java 8 流式處理提高程式響應

Java的Stream流式處理

轉載：Java 8 流式處理

新增 – GPU 支援的 Amazon AppStream 2.0 流式處理例項

Spark流式處理框架案例網站流量分析&大資料生態圈介紹

Storm：流式處理框架之特性與應用場景

Structured-Streaming+kafka流式處理

Maven專案配置spark Structured Streaming+kafka

Spark和kafka的maven配置

相關推薦