【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink實戰基礎004--flink特性：類庫和API示例

阿新 • • 發佈：2019-02-19

三、類庫和API

1.流處理程式

flink的 DataStream API在流處理的業務場景下，支援多種資料轉換，支援使用者自定義狀態的操作，支援靈活的視窗操作！

示例程式：


//1.定義case class
case class Word(word: String, freq: Long)

//2.定義資料來源
val texts: DataStream[String] = ...

//3.支援資料的流操作
val counts = text
  .flatMap { line => line.split("\\W+") }
  .map { token => Word(token, 1 
) }
  .keyBy("word")
  .timeWindow(Time.seconds(5), Time.seconds(1))
  .sum("freq")

程式說明：

以上程式演示瞭如何在一個數據流上，對源源不斷流入的訊息進行一個word-count操作！

2.批處理程式

flink的 DataSet API具有以下特性：
    1.支援Java和scale開發語言
    2.支援編寫型別安全的程式
    3.能夠編寫漂亮的易於維護的程式
    4.支援豐富的資料型別
    5.支援鍵值對資料型別
    6.支援豐富的運算元

示例程式：

//1.定義case class  

case class Page(pageId: Long, rank: Double)
case class Adjacency(id: Long, neighbors: Array[Long])

//2.執行運算
val result = initialRanks.iterate(30) { pages =>
  pages.join(adjacency).where("pageId").equalTo("id") {

    (page, adj, out: Collector[Page]) => {
      out.collect(Page(page.pageId, 0.15 
 / numPages))

      val nLen = adj.neighbors.length
      for (n <- adj.neighbors) {
        out.collect(Page(n, 0.85 * page.rank / nLen))
      }
    }
  }
  .groupBy("pageId").sum("rank")
}

程式說明：

以上程式演示了一個在圖計算中PageRank演算法的核心程式碼！

3.類庫和軟體棧

flink的軟體棧

這裡寫圖片描述

flink deploy:
    有三種部署方式
    1.本地部署：在本地啟動基於單個jvm的flink例項。
    2.叢集部署：在叢集中可以單獨部署成standalone模式，也可以採用hadoop的YARN進行部署成yarn模式
    3.雲部署：相容Google的雲服務GCE(Google Compute Engine)，也相容amazon的雲服務AWS(Amazon
      Web Services)。
flink core:
    flink的核心是一個分散式基於流的資料處理引擎,將一切處理都認為是流處理，將批處理看成流處理的一個特例。
    這與spark正好相反，spark是將一切處理都認為是批處理，將流處理看成批處理的一個特例。spark的流處理不
    是真正的流處理它是一種微型批處理（micro batch），因此spark的流處理實的時性不是很高，spark streaming
    定位是準實時流處理引擎。而flink是真正的流處理系統，它的實時性要比spark高出不少，它對標是Twitter開源的
    storm和heron,他是一個真正的大資料實時分析系統。
flink API: 
    flink的API分為兩個部分
    1.流處理API，流處理主要是基於dataStream
    2.批處理API，批處理主要是基於dataSet
flink liberaries:    
    Flink還針對特定的應用領域提供了相應的軟體庫，方便適應特定領域的操作。主要包括
    1.flink table：主要用於處理關係型的結構化資料，對結構化資料進行查詢操作，將結構化資料抽象成關係表，
       並通過類SQL的DSL對關係表進行各種查詢操作。提供SQL on bigdata的功能,flink table既可以在流處
       理中使用SQL,也可以在批處理中使用SQL,對應sparkSQL.
    2.flink gelly：主要用於圖計算領域，提供相關的圖計算API和圖計算演算法的實現,對應spark graph。
    3.flink ML（machine leaning）：主要用於機器學習領域，提供了機器學習Pipelines APIh和多種機器學
      習演算法的實現,對應sparkML
    4.flink CEP（Complex event processing）：主要用於複雜事件處理領域。
總結：
    flinK為支援各種計算場景提供了相應的高層api
    1.提供DataSet API來支援批處理場景
    2.提供DataSream API來支援批流理場景
    3.提供CEP API來支援F複雜事件處理（Complex Event Processing）的場景
    4.提供Gelly API來支援圖分析場景
    5.提供Table API來支援SQL-ON-BIGDATA場景
    6.提供FlinkML API來支援機器學習場景

這裡寫圖片描述

flink為了和大資料生態圈的其他技術進行融合，也在努力的擴充套件器儲存層的支撐。

spark的軟體棧

這裡寫圖片描述

1.在高層api方面，flink和spark幾乎一樣都覆蓋了大多數的大資料處理場景。
2.由於發展的原因spark在API方面要超出flink，這方面flink也在大力發展。

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink高階特性與高階應用002-Flink的記憶體管理002

二、flink的記憶體管理機制 0.flink的記憶體劃分 1.flink在JVM的heap內有自己的記憶體管理空間。 2.在flink中記憶體被分為三個部分，分別是Unmanaged區域，

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink高階特性與高階應用008-Slot和Parallelism的深入分析003

四、任務槽（task-slot）和槽共享（Slot Sharing） 1.任務槽（Task slot） 1.flink的TM就是執行在不同節點上的JVM程序（process）,這個程序會

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink高階特性與高階應用001-Flink的記憶體管理001

一、基於JVM的大資料生態圈 1.bigdata on jvm 1.現在大多數開源大資料處理框架都是基於jvm的，像 Apache Hadoop,Apache Spark,Apache Hb

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink實戰基礎0015--flink分散式部署0010

五、flink-on-yarn實現原理 1.通過配置資訊找到yarn a.Flink-Yarn-Client(FRC)讀取YARN_CONF_DIR,HADOOP_CONF_DIR或HAD

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink高階特性與高階應用006-Slot和Parallelism的深入分析001

一、flink架構 1.flink是一個主從結構的分散式程式，它由client和cluster兩部分組成。 2.cluster由主節點JobManager（JM）和從節點TaskManager組

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink高階特性與高階應用004-Flink的作業排程情況001

一、作業（Job）和排程（Scheduling） 1.排程（Scheduling） 1.Flink叢集一般有一個或多個TaskManager，每個TaskManager有一個或多個slot來

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink實戰基礎002--flink特性：流處理特性介紹

第二部分：flink的特性一、流處理特性 1.高吞吐，低延時有圖有真相，有比較有差距。且看下圖： 1.flink的吞吐量大 2.flink的延時低 3.flink的配置少

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink高階特性與高階應用015-Flink中廣播變數和分散式快取001

1.flink中的廣播變數 flink支援將變數廣播到worker上，以供程式運算使用。執行程式 package code.book.batch.sinksource.scala i

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink實戰基礎0019--IDEA搭建maven管理的整合開發環境001

一、準備flink的開發環境 1. 建立scala的maven專案 2.輸入專案的基本資訊 3.驗證專案的基本資訊 4.輸入專案名稱 5.生成的目錄結構

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink實戰基礎004--flink特性：類庫和API示例

三、類庫和API 1.流處理程式 flink的 DataStream API在流處理的業務場景下，支援多種資料轉換，支援使用者自定義狀態的操作，支援靈活的視窗操作！示例程式：

雲星資料---Apache Flink實戰系列(精品版)】：Flink流處理API詳解與程式設計實戰002-Flink基於流的wordcount示例002

三、基於socket的wordcount 1.傳送資料 1.傳送資料命令 nc -lk 9999 2.傳送資料內容 good good study day day

【雲星資料---Scala實戰系列(精品版)】：Scala入門教程062-Scala實戰原始碼-訪問許可權

package scala.demo18_accessModifier /** * Created by liguohua on 2015/8/2. */ /** * 1.訪問許可權有private和protected兩種 * 1.1.pri

雲星資料---Scala實戰系列(精品版)】：Scala入門教程001-使用Intellij IDEA建立scala工程

1.建立Scala工程選擇[Create New Porject] 選擇,建立[scala]專案,選擇【next】輸入專案名稱，選擇【finish】進入下面的視窗。左側是工程結構，中間是快捷鍵提示！ 2.建立

雲星資料---Scala實戰系列(精品版)】：Scala入門教程018-Scala實戰原始碼-Scala內部類

Scala 內部類 package scala_learn.demo02_oop /** * Created by liguohua on 2017/8/1. */ class Outer(

雲星資料---Scala實戰系列(精品版)】：Scala入門教程054-Scala實戰原始碼-Scala implicit 操作05

Scala implicit 操作05 package scala_learn.demo12_Implicit /** * Created by liguohua on 2017/3/1.

雲星資料---Scala實戰系列(精品版)】：Scala入門教程060-Scala實戰原始碼-Scala package 包物件

Scala 包物件包中類 package scala_learn.demo17_package /** * Created by liguohua on 2017/8/2. */ pack

雲星資料---Scala實戰系列(精品版)】：Scala入門教程052-Scala實戰原始碼-Scala implicit 操作03

Scala implicit 操作03 package scala_learn.demo12_Implicit /** * Created by liguohua on 2017/3/1.

雲星資料---Scala實戰系列(精品版)】：Scala入門教程048-Scala實戰原始碼-Scala Match操作

Scala Match操作 package scala_learn.demo11_Collection /** * Created by liguohua on 2017/7/31. */

雲星資料---Scala實戰系列(精品版)】：Scala入門教程036-Scala實戰原始碼-Scala match語句01

Scala match語句 scala中的match語句用來在一個列表中選擇某一個分支來執行分支的語句塊，類似於其他語言中的swtich..case語句 package scala_learn.

雲星資料---Scala實戰系列(精品版)】：Scala入門教程034-Scala實戰原始碼-Scala apply方法02 初始化物件

Scala 呼叫apply() 初始化物件 package scala_learn.demo08_Apply /** * Created by liguohua on 2017/3/1. *

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink實戰基礎004--flink特性：類庫和API示例

三、類庫和API

1.流處理程式

2.批處理程式

3.類庫和軟體棧

flink的軟體棧

spark的軟體棧

相關推薦