Spark定製班第29課：深入理解Spark 2.x中的Structured Streaming內幕

阿新 • • 發佈：2019-02-03

本期內容： 1. 新型的Spark Streaming思維 2. Structured Streaming內幕 Spark 2.0 仍有bug，不適合於生成環境。只用於測試。 Spark 2.X提出了continuous application（連續的應用程式）的概念，非常重大。

如圖例所示，資料通過Kafka流進來，經過ETL， SS把資料看成一張表。一張沒有邊際的表、

Eventtime，事件觸發器，以後再展開來分析。通過JDBC訪問資料。多個query並行執行。官方說2.0的正式版本並沒有線上機器學習功能了。

快速的、容錯的、exactly-once，有狀態的流處理。不用清楚底層的流是怎麼回事。

delta input：增量更新。有更新的部分時，才更新。從物理級別看的內容：

StructureStreaming基於DataSet、DataFrame，沒有涉及DStream了。沒有資料收集過來再處理這樣的概念，資料就一直在了。

上例中將兩個dataset進行join操作，更符合RDD的API，不需要foreachRDD後門了。 API級別的很大優勢。

預設情況下，DataSet、DataFrame是static bounded data，流處理是streaming unbounded data。API把兩者融合了。

可以認為Planner是一個翻譯器或路由器，基於DataFrame和DataSet程式碼來決定是否走Spark SQL的UnResult、Result Logic Plan、Optimized Logic Plan等，編碼者不需要關心這些東西了。 Spark會走向完全實時的時代。所有的機器學習、圖計算都應該在流資料上進行計算。

Spark定製班第29課：深入理解Spark 2.x中的Structured Streaming內幕

Spark定製班第29課：深入理解Spark 2.x中的Structured Streaming內幕

Spark定製班第1課：通過案例對Spark Streaming透徹理解三板斧之一：解密Spark Streaming另類實驗及Spark Streaming本質解析

Spark定製班第9課：Spark Streaming原始碼解讀之Receiver在Driver的精妙實現全生命週期徹底研究和思考

第7課：實戰解析spark執行原理和rdd解密

第08課：深入Java Spring Boot 2.0 自動化配置機制 Auto Configuration

第74課：Hive on Spark大揭祕完整版

第6課：Java Spring Boot 2.0實戰MyBatis與優化(Java面試題)

第7課：Java Spring Boot 2.0安全機制、漏洞與MVC身份驗證實戰

第16課：瞬間理解三種基本的GC演算法基石

Mysql高手系列 - 第22篇：深入理解mysql索引原理，連載中

TLS使用指南（一）：如何在Rancher 2.x中進行TLS termination？

潭州課堂25班：Ph201805201 第七課：控制流程 (課堂筆記)

Scala實戰高手****第4課：零基礎徹底實戰Scala控制結構及Spark原始碼解析

Scala實戰高手****第7課：零基礎實戰Scala面向物件程式設計及Spark原始碼解析

Scala實戰高手****第7課：零基礎實戰Scala面向對象編程及Spark源碼解析

Scala實戰高手****第6課：零基礎實戰Scala集合操作及Spark源碼解析

Scala實戰高手****第16課：Scala implicits程式設計徹底實戰及Spark原始碼鑑賞

第14課：spark RDD彈性表現和來源，容錯

第12課：spark高可用(HA)框架

第24課：使用MAT動態分析Spark應用程式初體驗

Spark定製班第29課：深入理解Spark 2.x中的Structured Streaming內幕

相關推薦