1. 程式人生 > >oreilly《Flink基礎教程》讀後感一

oreilly《Flink基礎教程》讀後感一

這本書是目前市面上唯一的一本關於flink的中文書。

作者是flink的創始團隊的核心成員弗裡德曼,翻譯者是阿里巴巴的員工王邵翔。

這本書沒有將flink的原理,API,具體用法等等,而是講fink的使用場景、架構、用途,優勢。應該說是非常適合入門和調研的一本書。

書很薄,但我覺得很值。

  • 一、第一章 為何選擇Flink

這章主要介紹Flink的使用場景,作為第四代大資料計算引擎,Flink具有很多優良的特性。基於同一組件和語義,既支援批處理又支援流處理。這點和spark有明顯區別。

我覺得在未來,Flink會替代spark。

  • 二、第二章 流處理架構

Flink的強項就是流處理。一切皆流。要真正使用Flink,必須依賴一個核心元件:分散式訊息佇列。

目前主流、高效能、大資料業務的訊息佇列只有Kafka和MapR steam,前者我已經用了三年了。後者在API和基本使用方面複用了Kakka的介面,核心部分的實現原理不太一樣。

既支援批處理,又支援流處理。

  • 三、第三章 Flink的用途

Flink可以解決分散式資料庫一致性問題,也能很好的處理需要低延遲的大資料計算挖掘分析應用。

Flink並沒有像spark那樣把所有資料一股腦放到記憶體裡面,而是巧妙的把部分核心資料放到記憶體裡面。多執行緒是大量使用到。1.6版Flink,節點間通訊使用的是netty和akka

 

  • 四、第四章 對時間的處理

在視窗處理方面,Flink比起spark streamming更加優越。

Flink的流式計算視窗是基於事件的,也支援時間。而spark streaming是基於時間的,這回導致一系列的效能問題。

 

目前看到這,還有很多原理細節需要理一理。