（二）：Flink概述，Flink如何支援批流處理，程式流程

阿新 • • 發佈：2019-01-31

前言

以下都儘量對比Spark（或者大資料生態的其他技術）進行理解。

Flink簡介，Flink能做什麼

Flink簡介

Flink最初是一個名為Stratosphere的研究專案，目標是為柏林地區的一些大學建立下一代大資料分析平臺。它於2014年4月16日成為Apache孵化器專案。Stratosphere的初始版本基於Nephele的研究論文http://stratosphere.eu/assets/papers/Nephele_09.pdf

Flink最重要的功能，即Flink的流API，是Flink 0.7才引入的。最開始只有Java API，後來的版本也開始支援Scala API。

下圖為Stratosphere的演變：
在這裡插入圖片描述

當下1.x版本的架構為：
在這裡插入圖片描述

Flink能做什麼

支援批處理
互動式處理
實時流資料處理
支援用SQL分析
支援機器學習
資料處理後的託管狀態（managed state）
以及僅一次交付（exactly-once）保證

（下圖的特性是不完整的）
在這裡插入圖片描述

所以，這樣看來，Flink的目標，和Spark是差不多的。

一些異同舉例：

雖然目標差不多，都想“一統江湖”，但是Flink的生態，還不太完善，還在慢慢的建立
Flink實時處理是其優勢，基於此的機器學習，也是優勢，雖然也不夠完善
託管狀態（managed state）是Flink的優勢。【儘量將每個Task的歷史狀態儲存在記憶體中。】
【在流處理中，有些操作僅僅在某一時間針對單一事件（如事件轉換map），有些操作需要記住多個事件的資訊並進行處理（window operators），受到其他資訊的處理結果的影響。後者的這些操作稱為有狀態的操作。】

準實時處理（微處理）以及較為完善的生態，依然是Spark的大優勢。
Flink 與 Spark Streaming都保證 僅一次交付（exactly-once）。【Flink通過定期的非同步checkpointing本地狀態儲存到持久層來保證在出現故障時的exactly-once】

Flink guarantees exactly-once state consistency in case of failures by periodically and asynchronously checkpointing the local state to durable storage.

在 Flink 中，DataSet APi（批）和 DataStream API（流）是同一個公用引擎之上的兩個獨立的抽象。所以，這兩者的行為目前無法合併在一起操作

，目前官方正在處理這種問題，詳見［FLINK-2320］；但是Spark就不同，DStream以及DataSet（DataFrame[T]）都是封裝在RDD之上的，所以可以互動。
計算操作都是懶載入。

下圖的紅色框，現在看來，可能不太嚴謹了。（TODO:Flink純自動化記憶體管理？連基本的額配置都不需要？就因為其是自己控制記憶體，而spark基於JVM控制記憶體，就把它們分為configured和automatic？）

1.6開始，spark推出UnifiedMemoryManager開始朝自動化記憶體管理髮展
Spark 記憶體管理以及記憶體消耗估算可參考該官方說明

Filink也支援三大部署模式：Local、Cluster（Standalone，Yarn，messos）以及Cloud
在這裡插入圖片描述

選擇微批處理還是實時處理

第一個用例是金融：信用卡欺詐檢測與欺詐預防有些不同。檢測是在微批或實時流上發生的事情，而欺詐預防必須實時發生。想象一下，使用者正在進行交易，您希望系統檢視是欺詐性交易還是有效交易。
比如有兩個廣告科技行業的場景：一個是聚合來自不同IP地址的不同IP請求，將IP歸入黑名單或白名單；另一個是設法阻止一個黑名單IP的特定請求。前者使用微批處理就可以，而後者就需要實時流處理。再比如，在電信行業，統計特定使用者使用的頻寬，微批處理可能是一個更高效的方案，而網路異常檢測就需要實時流處理了。也有一些場景，微批處理和實時流處理都適用，如在IoT行業檢視特定工業裝置的使用情況。
視訊中還對IOT以及電信行業進行了例舉。對應部落格

計算流程（元件）

這裡只是簡單的類比下：

在Spark中，我們知道，是RDD/dstream + transform運算元 + action運算元
而在Flume中，是source、channel、sink
Kafka中，是produce 、儲存(或者不儲存）、consume
Hadoop中，map、落磁碟(也可以不落磁碟）、reduce
Storm中，是圖狀結構(拓撲）：spout、bolt
Hive：HiveSQL ->AST(抽象語法樹：完成SQL詞法，語法解析，將SQL轉化為抽象語法樹AST Tree；) -> QB(查詢塊) ->OperatorTree（操作樹）->優化後的操作樹->mapreduce任務樹->優化後的mapreduce任務樹
這裡的Flink，是source、transformation、sink

Flink如何支援批流處理

理解Flink如何流式實時處理資料，如果不是深入細節去理解，還是很好理解，泛泛而談，就是來一條處理一條，但是具體是怎樣的，還需要以後深入學習才知道。
比如說：

哪條訊息傳送往哪臺機器去計算，是怎樣決定的？
處理某條訊息如果牽扯到之前的訊息處理的狀態，那麼之前的訊息相關的，是怎樣傳輸到其他節點的？
等等

這裡先理解下Flink如何進行批處理：

首先，Flink 把批處理看成 Stream 的特殊例子（也就是批處理建立在流式基礎之上，Spark Streaming可以理解為是相反的），具體到架構圖可知道：

面向流處理對應DataStream API，面向批處理對應DataSet API。
官網講解的Dataset都是從檔案獲取資料，我想知道的是：Flink是如何將流式資料批量對待的（因為Flink將批作為流的特例，有文章說——Flink中有一個時間引數，控制快取多少的資料之後再進行處理。但我遲遲沒有找到證據）。
先放著，TODO

程式開發步驟

DataStream和DataSet API是程式設計師呼叫的介面。編譯程式時，這些API會生成JobGraphs。編譯後，DataSet API允許優化器生成最佳執行計劃，而DataStream API使用流構建的方式來實現高效的執行計劃。然後根據部署模型將優化的JobGraph提交給執行程式。

與Spark“套路”差不多：

獲取上下文執行環境
ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

【Spark中是
SparkContext / SparkSession / StreamingContext 或者
JavaSparkContext / JavaSparkStreaming
】

載入資料，比如：
env.readTextFile等

【spark：

spark.read.jdbc
spark.read.json
spark.read.orc
spark.read.parquet
spark.read.textFile

】

Transformations 運算元，比如：

data.flatMap(new FlatMapFunction<String, String>() {
  public void flatMap(String value, Collector<String> out) {
    for (String s : value.split(" ")) {
      out.collect(s);
    }
  }
});

sinks，比如：

textData.writeAsText

執行
env.execute();
spark:spark-submit

參考

[7.] 《Learning Apache Flink》packt

（二）：Flink概述，Flink如何支援批流處理，程式流程

前言以下都儘量對比Spark（或者大資料生態的其他技術）進行理解。 Flink簡介，Flink能做什麼 Flink簡介 Flink最初是一個名為Stratosphere的研究專案，目標是為柏林地區的一些大學建立下一代大資料分析平臺。它於2014年4月16

Java設計模式（二）：單例模式的5種實現方式，以及在多執行緒環境下5種建立單例模式的效率

這段時間從頭溫習設計模式。記載下來，以便自己複習，也分享給大家。 package com.iter.devbox.singleton; /** * 餓漢式 * @author Shearer * */ public class SingletonDemo1 {

Spring Boot中使用WebSocket總結（二）：向指定使用者傳送WebSocket訊息並處理對方不線上的情況

Spring Boot中使用WebSocket總結（二）：向指定使用者傳送WebSocket訊息並處理對方不線上的情況在上一篇文章（www.zifangsky.cn/1355.html）中我介紹了在Spring專案中使用WebSocket的幾種實現方式。但是，上篇文章中只介紹了服務端採用廣播模式給所有客戶

實戰容器程式設計好基友之visual studio code＋docker篇（二）：實時除錯執行在docker中的node.js程式

上篇文章中，我們介紹了怎麼利用visual studio code在本地編譯生成docker映象，這篇文章我們會介紹怎麼利用Visual studio code 實時除錯執行在容器中的node.js程式。這裡我們還會利用之前的專案node-todo, 環境搭

JSON（二）：伺服器端和客戶端的JSON處理

上面介紹瞭如何用 JSON表示資料，接下來，我們還要解決如何在伺服器端生成 JSON 格式的資料以便傳送到客戶端，以及客戶端如何使用 JavaScript 處理 JSON 格式的資料。先來看看伺服器如何輸出JSON格式的資料吧。以 Java 為例，我們將演示將一個Java 物件編

C語言（二）：C語言概述

感覺用途計算機一行可用讓其 pan 復合語句 sso 學習筆記：　運算符　函數一個簡單的C語言程序整型變量換行符註釋關鍵字概述：C語言程序是什麽樣

JPA hibernate spring repository pgsql java 工程（二）：sql文件導入數據，測試數據

ber tracking evel 主鍵出現一個 OS resources pos 使用jpa保存查詢數據都很方便，除了在代碼中加入數據外，可以使用sql進行導入。目前我只會一種方法，把數據集中在一個sql文件中。而且數據在導入中常常具有先後關系，需要用串行的方式導

瀏覽器工作原理（二）：瀏覽器渲染過程概述

sync 結構 dom end 繪制 fault 異步加載步驟 targe 參考：https://segmentfault.com/a/1190000012925872#articleHeader4 瀏覽器器內核拿到內容後，渲染大概可以劃分成以下幾個步驟：解析html

Guava學習筆記（二）：基礎（Joiner，Objects，Splitter及Strings）

nonnull obj expect null dto 字符情況 core cte 添加Maven依賴 JoinerTest import com.google.common.base.Joiner; import org.junit.Assert; import org

Python地理位置信息庫geopy的使用（二）：根據中心點坐標，方向，距離計算坐標

block 我們 code ram des int pri 經緯 kilo 上一篇文章我們介紹了geopy的基本使用，這一篇文章我們根據中心點坐標，方向，距中心點距離計算出對應的坐標點，這種用法官網並沒有給出詳細的文檔，我們這裏做一下說明生成坐標點的具體方法 impor

安卓開發學習筆記（二）：Android Stuidio無法引用Intent來創建對象，出現cannot resolve xxx

編譯器 port stact 消失 click first 紅色 xxx font 筆者在進行安卓開發時，發現自己的代碼語法完全沒有問題。尤其是創建intent對象的時候，語法完全是正確的，但是Android Stuidio卻顯示報錯，Intent類顯示為紅色，如圖所示：

rest-assured介面自動化（二）：往execl中增加用例，自動執行所有介面

利用空閒之餘，寫了第一個介面自動化測試demo, 通過讀取execl中的介面測試用例，介面自動執行。（這裡跟很多網上的介面自動化有點不同的是：無需再寫程式碼，只需要從execl中增加用例，就可執行）。這是execl的模板：這個模板可以很好的管理專案的各個模組，看起來也是簡潔，也是頗為喜

linux入門學習（二）：linux圖形化界面與命令行界面之間的切換，以及一些系統命令

之間 linu 鏡像 pan ctr 安裝 linux -- linux鏡像一、linux圖形化界面與命令行界面之間的切換註意：前提是你安裝的 linux鏡像ios 必須具備圖形化功能。 1）　　圖形化界面--->命令行界面：　　　　　　ctrl + alt +

搭建自己的博客（二）：創建表，創建超級用戶

HERE clas content span self. alt 更新記得運行接上一篇搭建完成之後，開始構建一些表了。一篇博客首先需要一個表來存放博客，然後一篇博客應該需要不同的標簽來分類，還應該有作者。下面動手創建表。作者表暫時準備使用django自帶的user表

「日常訓練&知識學習」莫隊演算法（二）：樹上莫隊（Count on a tree II，SPOJ COT2）

題意與分析題意是這樣的，給定一顆節點有權值的樹，然後給若干個詢問，每次詢問讓你找出一條鏈上有多少個不同權值。寫這題之前要參看我的三個blog：CFR326D2E、CFR340D2E和HYSBZ-1086，然後再看這幾個Blog—— 參考A：https://blog.sengxian.com/algori

岡薩雷斯：數字影象處理（二）：第二章數字圖形基礎（上）——影象內插，相鄰畫素，鄰接性，距離度量

1.影象內插：從根本上看，內插是用已知資料來估計未知位置的數值的處理。例如，假設一幅大小為500500畫素的影象要放大1.5倍到75075畫素，一種簡單的放大方法是建立一個假想的750750網格，它與原始影象有相同的間隔，然後將其收縮，使它準確的與原影象匹配。顯然，收縮後的750750網格

vue問題記錄（二）：cookie實現三天內免登陸，以及記住使用者名稱密碼等

首先，我們是要在自己的專案目錄下面建立一個資料夾，如下圖，然後就在我標記的地方，寫關於cookie的方法，獲取cookie,設定，清除等，如下圖程式碼如下，方便拷貝 //獲取cookie、 export functio

（一）：小白的Flink學習計劃以及進度表

文章目錄學習計劃以下幾個階段，其實並不是這麼界限分明（比如你在學視訊時，也完全可以看書看原始碼什麼的），這只是我的大致劃分，適合自己的才是最好的。第一階段看視訊在我看來，看視訊是快速的、粗

Git系列文章（二）：從github上下載專案，本地修改後提交至github

Spring官方demo綠房子：spring-projects/greenhouse 1、獲取github遠端倉庫地址： [email protected]:spring-projects/greenhouse.git 2、用git克隆專案到本地選擇要克隆的程式碼，滑鼠右

RabbitMq的學習（二）：Java建立簡單的生產者，消費者

官方文件說的很詳細，但是再詳細也要動手操作一番，畢竟動手操作的時候，才會給自己挖坑。使用環境： RabbitMq版本：3.7.8 jdk環境：1.8 一、引入maven架包 <dependency> <groupId>com.r

（二）：Flink概述，Flink如何支援批流處理，程式流程

前言

Flink簡介，Flink能做什麼

Flink簡介

Flink能做什麼

選擇微批處理還是實時處理

計算流程（元件）

Flink如何支援批流處理

程式開發步驟

參考

相關推薦