Flink開發實戰二 ——實戰案例

阿新 • • 發佈：2018-11-12

本文以flink本地模式進行各個場景的實戰開發

flink本地執行模式

Flink支援兩種不同的本地執行機制:

LocalExecutionEnvironment啟動完整的Flink執行環境，包括一個JobManager和一個TaskManager。這些包含了記憶體管理以及在叢集模式下執行時所執行的所有內部演算法。

LocalEnvironment也可以向Flink傳入使用者自定義配置。

Configuration conf = new Configuration();

conf.setFloat(ConfigConstants.TASK_MANAGER_MEMORY_FRACTION_KEY, 0.5f);

final ExecutionEnvironment env = ExecutionEnvironment.createLocalEnvironment(conf);

CollectionEnvironment在Java集合上執行Flink程式(executing the Flink program on Java collections)。這種模式不會啟動完整的Flink執行環境，因此執行開銷比較低以及輕量級。例如，DataSet的map轉換操作將map()函式應用於Java列表中的所有元素上。

環境獲取

Flink 批處理環境

val env = ExecutionEnvironment.getExecutionEnvironment

Flink 流處理環境

val env = StreamExecutionEnvironment.getExecutionEnvironment

實戰案例

基於檔案（本地，hdfs）的wordcount

public class FunctionTest {
    public static void main(String[] args) throws Exception {
        //建立流執行環境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        //讀取文字檔案中的資料
        DataStreamSource<String> streamSource = env.readTextFile("C:/flink_data/1.txt");
        //進行邏輯計算
        SingleOutputStreamOperator<Tuple2<String, Integer>> dataStream = streamSource
                .flatMap(new Splitter())
                .keyBy(0)
                .sum(1);
        dataStream.print();
        //設定程式名稱
        env.execute("Window WordCount");
    }
}

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.util.Collector;

public  class Splitter implements FlatMapFunction<String, Tuple2<String, Integer>> {
    @Override
    public void flatMap(String sentence, Collector<Tuple2<String, Integer>> out) throws Exception {
        for (String word: sentence.split(" ")) {
            out.collect(new Tuple2<String, Integer>(word, 1));
        }
    }
}

二、基於socket的wordcount（scala版本）

1.傳送資料

在linux機器上執行 nc-lk傳送資料

nc -lk 9999

import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.time.Time
object ScortWc {
  def main(args: Array[String]): Unit = {
    //1.建立執行環境
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    //2.定義資料流來源
    val text = env.socketTextStream("127.0.0.11", 9999)
    //3.進行wordcount計算
    val counts = text.flatMap(_.toLowerCase.split(" ") filter (_.nonEmpty))
      .map((_, 1))
      .keyBy(0)
      .timeWindow(Time.seconds(5))
      .sum(1)
    //4.列印結果
      counts.print
    //觸發計算
    env.execute("Window Stream WordCount")
  }

}

執行效果

三.基於kafka的wordcount

新增maven依賴

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-kafka-0.9_2.10</artifactId>
<version>1.1.3</version>
</dependency>

程式程式碼

object DataFkafka {
  def main(args: Array[String]): Unit = {
    //設定kafka連線引數
    val  properties = new Properties()
    properties.setProperty("bootstrap.servers", "10.10.4.11:9092,10.10.49.183:9092,10.10.49.207:9092");
    properties.setProperty("zookeeper.connect", "10.10.4.11:2181,10.10.49.183:2181");
    properties.setProperty("group.id", "res");
    //獲取流執行環境
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    //設定時間型別
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
    //設定檢查點時間間隔
    env.enableCheckpointing(1000)
    //設定檢查點模式
    env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE)
    //建立kafak消費者，獲取kafak中的資料
    val myConsumer: FlinkKafkaConsumer010[String] = new FlinkKafkaConsumer010[String]("flink", new SimpleStringSchema(), properties)
    val kafkaData: DataStream[String] = env.addSource(myConsumer)
    kafkaData.print()
    //資料儲存到hdfs
    kafkaData.writeAsText("hdfs://10.10.4.11:9000/output/flink.txt")
    print("kafka")
    //設定程式名稱
    env.execute("data_from_kafak_wangzh")

  }

}

四,事件時間的使用 event time

資料準備

準備一組時間亂序的資料然後使用 nc -lk 9999 這個指令模擬實時資料流

67000,boos2,pc1,200.0
62000,boos2,pc2,500.0
78000,boos2,pc2,600.0
71010,boos2,pc2,700.0
62010,boos2,pc2,500.0

67000 6200 是時間的毫秒值正好差5s

需求

計算真實資料流，五秒鐘之內的價格總和

顯然如果不使用事件時間，是無法區分事件真實時間的，因此這個這種需求下必須使用event time、也就是處理亂序的資料流。

程式碼實現

/**
  * Created by  ${WangZhiHua} on 2018/10/31
  */

object  EventTime_test {
    def main(args: Array[String]) {
      import org.apache.flink.api.scala._
      //1.建立執行環境，並設定為使用EventTime
      val env = StreamExecutionEnvironment.getExecutionEnvironment
      //置為使用EventTime
      env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

      //2.建立資料流，並進行資料轉化
      val source = env.socketTextStream("127.0.0.11", 9999)
      //定義一個樣例類去封裝資料
      case class SalePrice(time: Long, boosName: String, productName: String, price: Double)
      val dst1: DataStream[SalePrice] = source.map(value => {
        val columns = value.split(",")
        SalePrice(columns(0).toLong, columns(1), columns(2), columns(3).toDouble)
      })

      //3.使用EventTime進行求最值操作
      val dst2 = dst1
        //提取訊息中的時間戳屬性
        .assignAscendingTimestamps(_.time)
        .keyBy(_.productName)
        //.timeWindow(Time.seconds(5))//設定window方法一
        .window(TumblingEventTimeWindows.of(Time.seconds(5)))
        .sum(3)
      //設定window方法二
      // .max("price")
      //4.顯示結果
      dst2.print()
      //5.觸發流計算
      env.execute()
    }

列印結果

五,生成並跟蹤watermark程式碼

我們從socket接收資料，然後經過map後立刻抽取timetamp並生成watermark，之後應用window來看看watermark和event time如何變化，才導致window被觸發的

package com.missfresh.flinkCore

import java.text.SimpleDateFormat

import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.functions.AssignerWithPeriodicWatermarks
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.streaming.api.scala.function.WindowFunction
import org.apache.flink.streaming.api.watermark.Watermark
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
import org.apache.flink.util.Collector

/**
  * Created by  ${WangZhiHua} on 2018/10/31
  */


object WaterMarks_test {
  def main(args: Array[String]): Unit = {
    import org.apache.flink.api.scala._
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
    //獲取實時流
    val input = env.socketTextStream("127.0.0.11", 9999)

    val inputMap = input.map(f => {
      val arr = f.split(",")
      val code = arr(0)
      val time = arr(1).toLong
      (code, time)
    })

    val watermark = inputMap.
      //獲取時間戳和水印
      assignTimestampsAndWatermarks(new AssignerWithPeriodicWatermarks[(String, Long)] {
        var currentMaxTimestamp = 0L
        val maxOutOfOrderness = 10000L
        //最大允許的亂序時間是10s
        var a: Watermark = null
        val format = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss.SSS")
      //獲取水印
        override def getCurrentWatermark: Watermark = {
          a = new Watermark(currentMaxTimestamp - maxOutOfOrderness)
          a
        }
      //獲取時間戳
        override def extractTimestamp(t: (String, Long), l: Long): Long = {
          val timestamp = t._2
          currentMaxTimestamp = Math.max(timestamp, currentMaxTimestamp)
          println("timestamp:" + t._1 + "," + t._2 + "|" + format.format(t._2) + "," + currentMaxTimestamp + "|" + format.format(currentMaxTimestamp) + "," + a.toString)
          timestamp
        }
      })

    val window = watermark
      .keyBy(_._1)
      .window(TumblingEventTimeWindows.of(Time.seconds(3)))
      .apply(new WindowFunctionTest)
      window.print()
     env.execute()
  }

  class WindowFunctionTest extends WindowFunction[(String, Long), (String, Int, String, String, String, String), String, TimeWindow] {

    override def apply(key: String, window: TimeWindow, input: Iterable[(String, Long)], out: Collector[(String, Int, String, String, String, String)]): Unit = {
      val list = input.toList.sortBy(_._2)
      val format = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss.SSS")
      out.collect(key, input.size, format.format(list.head._2), format.format(list.last._2), format.format(window.getStart), format.format(window.getEnd))
    }

  }

}

Flink開發實戰二 ——實戰案例

本文以flink本地模式進行各個場景的實戰開發 flink本地執行模式 Flink支援兩種不同的本地執行機制: LocalExecutionEnvironment啟動完整的Flink執行環境，包括一個JobManager和一個TaskManag

VUE2X實戰開發隨筆(二)

demo src local 文件名支持 xxx java 好的數據過濾 vue的單頁面應用開發會把頁面中所有的文件都會打包在build.js文件中，這樣可能這個文件變得很大，對性能，體驗都不是很好的選擇；單頁面應用改為多頁面應用的方法：開始改造

【轉載】Vue 2.x 實戰之後臺管理系統開發（二）

null element asc 其他就會 ans 目錄 asi all 2. 常見需求 01. 父子組件通信 a. 父 -> 子（父組件傳遞數據給子組件）使用 props，具體查看文檔 - 使用 Prop 傳遞數據（cn.vuejs.org/v2/guide

flink開發實戰之flink原理解析

目錄 Flink出現的背景 Flink 簡介 Flink 的生態圈(技術棧) 執行配置設定並行性操作級別執行環境級別客戶級別基本API（流處理和批處理） DataSet和DataStream Flink計劃的剖析

flink開發實戰一：flink叢集的搭建與部署

flink實戰案例一：flink叢集的搭建與部署 1.下載Flink壓縮包下載地址：http://flink.apache.org/downloads.html 根據叢集環境的情況下載相應的版本的flink壓縮包 hadoop2.6，Scala2.11，所以下載：flink-1

flink開發實戰之 flink on yarn

flink 執行模式 Flink 和spark一樣有三種部署模式，分別是 Local、Standalone Cluster 和 Yarn Cluster。實戰開發主要使用Yarn Cluster模式，所以本文主要介紹yarn 模式下flink任務的執行和資源分配。 Ya

Flink Broadcast 廣播變數應用案例實戰-Flink牛刀小試

版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。版權宣告：禁止轉載，歡迎學習。QQ郵箱地址：[email protected]，如有任何問題，可隨時聯絡。 1.1 Broa

Flink DataStreamAPI與DataSetAPI應用案例實戰-Flink牛刀小試

版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。期待加入IOT時代最具戰鬥力的團隊。QQ郵箱地址：[email protected]，如有任何學術交流，可隨時聯絡。 1 D

Flume系列二之案例實戰

Flume案例實戰寫在前面通過前面一篇文章http://blog.csdn.net/liuge36/article/details/78589505的介紹我們已經知道flume到底是什麼？flume可以用來做什麼？但是，具體怎麼做，這就是我們這篇文章想要介紹的。話不多說，直接來案例學習。實戰一：實現官網

Flask專案之手機端租房網站的實戰開發（二）

說明：該篇部落格是博主一字一碼編寫的，實屬不易，請尊重原創，謝謝大家！接著上一篇部落格繼續往下寫：https://blog.csdn.net/qq_41782425/article/details/85613780 目錄一丶建立專案二丶建立工程目錄(拆分manage.py

eth實戰專案遊戲開發 TICTACTOE 二

eth dapp，前端部分，使用使用truffle 框架，前端部分使用react，eht互動庫truffle-contract 合約部分請點選 https://blog.csdn.net/bondsui/article/details/85755186 github程式碼

flink開發實戰之 flink on yarn

flink 執行模式 Flink 和spark一樣有三種部署模式，分別是 Local、Standalone Cluster 和 Yarn Cluster。實戰開發主要使用Yarn Cluster模式，所以本文主要介紹yarn 模式下flink任務的執行和資源分配。

iOS開發——完整專案實戰Swift篇&百思不得姐Swift版總結（二）

一、常規主題色使用點應用在釋出前都會對其主題色進行設定，以統一應用的風格（可能有多套主題）。在主題色設定上有幾個方面，如下： 1.TabBar部分，設定圖片高亮、文字高度顏色2.NavigationBar部分，設定導航欄顏色及字型顏色3.應用標籤等，設定字型的顏色4.應用

Unity實戰 RTS3D即時戰略遊戲開發（二）

大家好，我是Zander，我們接著來開發Rts3D即時戰略性遊戲，本次所需要的資源大家可以在上篇文章所給的連結中下載。首先、我們要在下載好的工程包中找到Scenes資料夾並開啟RTSMap場景。然後、我們來建立玩家和敵人的出生點位置，如圖

OSB實戰開發【二】配置配置OSB的域模版

本練習結束，您將學會建立一個Service Bus執行的Domain 練習步驟： 1. 從Window啟動選單“開始” “所有程式” “Oracle Weblogic” “Weblogic Server 10gR3” “Tools” “Configura

Gin + Vue全棧開發實戰(二)

嘗試地寫了第一篇自己學習Go Web框架的感受和入門的文章，發現反響還不錯，大家也提出了很多的問題來一起交流。近期也漸漸地出現了很多有關go語言開發的相關文章，包括有在螞蟻金服的大牛的分享，我也一直有在看部落格園和學習，這裡越來越多人的去學習和使用Go，感覺也是非常好

iOS開發項目實戰——Swift實現圖片輪播與瀏覽

0.10 上網 timer類開發項目 cas hub string obj tle 近期開始開發一個新的iOS應用，自己決定使用Swift。進行了幾天之後，發現了一個非常嚴峻的問題。那就是無論是書籍，還是網絡資源，關於Swift的實在是太少了，隨便一

selenium實戰二進入博客園，上傳圖片並發帖

編輯 sendkeys arr accept 圖片 .cn ledir car spa 1 #-*- coding:utf-8 -*- 2 __author__ = "carry" 3 4 from selenium import webdriver 5 im

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報

font size 項目執行 weather html time art show 1.項目準備：網站地址：http://quanzhou.tianqi.com/ 2.創建編輯Scrapy爬蟲： scrapy startproject weather scrapy

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報的數據存儲問題

sql語句 city amd64 ces img href asp encoding primary 1.數據存儲到JSon：程序閱讀一般都是使用更方便的Json或者cvs等待格式，繼續講解Scrapy爬蟲的保存方式，也就是繼續對pipelines.py文件動手腳（1）創

Flink開發實戰二 ——實戰案例

flink本地執行模式

環境獲取

Flink 批處理環境

Flink 流處理環境

實戰案例

基於檔案（本地，hdfs）的wordcount

二、基於socket的wordcount（scala版本）

1.傳送資料

三.基於kafka的wordcount

新增maven依賴

程式程式碼

四,事件時間的使用 event time

資料準備

五,生成並跟蹤watermark程式碼

相關推薦