SparkStreaming（17）：updateStateByKey運算元，保留上一次計算結果

阿新 • • 發佈：2018-12-16

1.實現功能

如果SparkStreaming程式斷掉，重新啟動，可以讀取斷掉之前的結果。通過，使用SparkStreaming的HA：checkpoints。

2.程式碼

package _0809kafka

//import com.beifeng.util.SparkUtil
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

/**
 *
 * 之前做的計算當中，當前批次的計算值不會累加到下一個批次
 *
 * 當前批次的值計算完之後，存到外部儲存系統中
 * 下一個批次計算完值之後，在取出上一個批次計算出來的值，
 * 做相加，更新會原位置上
 *
 * checkpoint會保留上一個程式的ssc的狀態和UpdateStateByKey的結果
 * 但是構造ssc的時候，必須按照規矩寫，否則就讀不到UpdateStateByKey上一次的結果
 */
object UpdateStateByKeyAPI_1020HA {
  def main(args: Array[String]) {
    //使用checkpoint來儲存批次的資料
    //1、建立sparkConf
    val sparkConf: SparkConf = new SparkConf()
      .setAppName("UpdateStateByKeyAPI")
      .setMaster("local[2]")
    //2、建立sparkContext
    val sc = new SparkContext(sparkConf)

//    val path = s"file:///E:\\workspace\\SparkPro\\checkpoint\\streaming_05"
    val path = s"file:///E:\\Tools\\WorkspaceforMyeclipse\\scalaProjectMaven\\streaming_07"

    def creatingFunc():StreamingContext ={
      val ssc = new StreamingContext(sc,Seconds(10))
      ssc.checkpoint(path)
      val socketDStream: ReceiverInputDStream[String] = ssc.socketTextStream("bigdata.ibeifeng.com",9999)

      //api updateStateByKey
      val resultDStream: DStream[(String, Long)] = socketDStream.mapPartitions(iter =>{
        //對於當前批次的值做資料轉換
        iter.flatMap(_.split(" "))
          .filter(_.nonEmpty)
          .map(word => (word,1))
      })
        //對於當前批次的值，做累加（aggr聚合）操作
        .reduceByKey(_ + _)
        //對於value的操作,相同key怎麼處理對應的value
        .updateStateByKey((seq: Seq[Int],state: Option[Long])=>{
        //當前批次的相同key的value的聚合值
        val sum = seq.sum
        val preState= state.getOrElse(0L)
        /**
         * if(sum + preState > 1000){
         * Some(sum + preState)
         * }else{
         * //清空當前key的value值
         * None
         * }
         */
        Some(sum + preState)
      })

      resultDStream.foreachRDD((rdd,time) =>{
        println(s"----------------當前時間為：${time}----------------")
        //比如說:某些key不列印，某些值過於小也可以不列印，或者列印排序後的前5
        rdd.filter(t =>{
          t._2 > 100
        }).foreach(println)
      })
      ssc
    }

    val ssc = StreamingContext.getActiveOrCreate(path,creatingFunc)


    ssc.start()
    ssc.awaitTermination()


  }
}

3.測試

（1）開啟nc nc -lt 9999

（2）執行程式

（3）結果：

----------------當前時間為：1540004570000 ms----------------
(hadoop,212)
(ccs,159)
----------------當前時間為：1540004580000 ms----------------
[Stage 9:=================================================>         (5 + 1) / 6]
(hadoop,360)
(ccs,270)

（測試成功~）

SparkStreaming（17）：updateStateByKey運算元，保留上一次計算結果

1.實現功能如果SparkStreaming程式斷掉，重新啟動，可以讀取斷掉之前的結果。通過，使用SparkStreaming的HA：checkpoints。 2.程式碼 package _0809kafka //import com.beifeng.util.

藍的成長記——追逐DBA（17）：是分享，還是消費，在後IOE時代學會成長

原創作品，出自 “深藍的blog” 部落格，歡迎轉載，轉載時請務必註明出處，否則追究版權法律責任。【簡介】個人在oracle路上的成長記錄，其中以藍自喻，分享成長中的情感、眼

SparkStreaming（6）：例項-統計到目前為止累積出現的單詞的個數（updateStateByKey）

1.實現功能現實中，不僅需要統計，當前批次的單詞個數，還需要統計，迄今為止的總的單詞個數。這個就是需要，使用到updateStateByKey運算元。【參考：http://spark.apache.org/docs/2.1.0/streaming-programming-guide.ht

SparkStreaming（9）：例項-Streaming整合Spark SQL，進行wordcount功能

1.功能實現綜合Spark Streaming和Spark SQL，進行word count的統計。核心理解DStream和RDD相互操作，需要通過使用foreachRDD這個API。 2.程式碼 package Spark import or

SparkStreaming（15）：DStream轉換為RDD的Transform運算元

1.實現功能 DStream中還是缺少某些API的，比如sortByKey之類的。所以使用Transform直接操作DStream中的當前job/批次對應的RDD，來替換DStream的操作（可以直接使用RDD的api），比較方便。 2.程式碼 package

Windows Phone開發（2）：豎立自信，初試鋒茫

一鍵優秀保持知識 sdn ant emulator 一個動畫上一篇文章中，我們聊了一些“大炮”話題，從這篇文章開始，我們一起來學習WP開發吧。一、我們有哪些裝備。安裝完VS 學習版 for WP後，也連同SDK一並安裝了，不必像安卓那樣，安裝JDK，下載

Linux命令學習（17）：ifconfig命令

Vue2+VueRouter2+webpack 構建項目實戰（三）：配置路由，運行頁面

margin not found sans product mage -a nod targe fig 制作.vue模板文件通過前面的兩篇博文的學習，我們已經建立好了一個項目。問題是，我們還沒有開始制作頁面。下面，我們要來做頁面了。我們還是利用 http://cno

Akka（17）： Stream：數據流基礎組件-Source,Flow,Sink簡介

continue 時間 reat linear asi 我們大數據 resin 解決問題在大數據程序流行的今天，許多程序都面臨著共同的難題：程序輸入數據趨於無限大，抵達時間又不確定。一般的解決方法是采用回調函數（callback-function）來實現的，但這

CSS知識點整理（1）：CSS語法，層疊次序，選擇器，其他重要方面。

屬性。偽類選擇器 css語法 wid cape image 整理樣式以及 1. css的全稱 2. CSS的層疊次序：優先級由低到高 ·瀏覽器設置 ·外部樣式表 ·內部樣式表 ·內聯樣式 3. CSS的3種形式，以及每種形式的語法格式 ——註意樣式表的為什麽常

每天一個linux命令（17）：whereis 命令

數據幫助參數執行 localhost root 一個數據庫 usr 位置 whereis命令只能用於程序名的搜索，而且只搜索二進制文件（參數-b）、man說明文件（參數-m）和源代碼文件（參數-s）。如果省略參數，則返回所有信息。和find相比，whereis查找的

數據中臺專欄（五）：數棧，企業級一站式數據中臺PaaS

從數據創建現在產品設計 left 引擎采集可能方便本文作者：江楓袋鼠雲CTO，花名江楓，本名寧海元。2007年加入淘寶，曾是雙十一大促技術指揮部成員，“去IOE”數據庫負責人。打造過千億級實時日誌平臺、手機淘寶日誌分析創始人、阿裏雲數加平臺技術創始人。正文：2

Python從菜鳥到高手（17）：改變函數參數的值

完全 images 字符串類 mage 修改 ref https ans 首地址如果將一個變量作為參數傳入函數，並且在函數內部改變這個變量的值，那麽結果會怎麽樣呢？我們不妨做一個實驗。 x = 20 s = "世界您好" def test(x,s): x = 40

23種設計模式（17）：適配器模式

interface 進行 term tle pan keyword ng- 匹配可能概述：將一個類的接口轉換成客戶希望的另外一個接口。Adapter模式使得原本由於接口不兼容而不能一起工作的那些類可以一起工作。類型：結構型模式。類圖：適用性： 1.你想

robotframework 學習（4）：介面測試，返回json資料的獲取和驗證

一、前言上一篇部落格寫了怎麼從excel文件中獲取資料和傳參到介面當中，這一篇文章就記錄一下，獲取到介面返回的引數後的怎麼解析json資料。二、具體步驟 1、之前看到其

SparkStreaming（5）：例項-處理socket源資料

1.實現功能： SparkStreaming處理socket源的資料，並進行wordcount的統計。 2.scala程式碼 package Spark import org.apache.spark.SparkConf import org.apache.spark

SparkStreaming（4）：Discretized Streams (DStreams)理解

參考：http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html#discretized-streams-dstreams 1.概念（1）DStreams是一個連續的資料流，可以通過兩種方式產生：資料來源來的輸入

SparkStreaming（8）：windows視窗操作

1.概念在一定的時間間隔（interval）進行一個時間段（window length）內的資料處理。【參考：http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html】 2.核心

SparkStreaming（7）：例項-wordcount統計結果寫入到MySQL

一、功能概述 DStreams的輸出操作，即將DStreams輸出到對應的目的地。輸出操作包括：print、saveAsTextFiles、saveAsObjectFiles、saveAsHadoopFiles、foreachRDD。本例將使用foreachRDD把資料輸出到外部mysql資料庫

SparkStreaming（5）：例項-SparkStreaming處理本地或者HDFS檔案

1.實現功能： SparkStreaming處理本地或者HDFS檔案，並進行wordcount的統計。 2.前提開啟：（1）hdfs （2）metastore 3.scala程式碼：（1）本地目錄寫法： file:///E:\\Tools\\WorkspaceforM

SparkStreaming（17）：updateStateByKey運算元，保留上一次計算結果

1.實現功能

2.程式碼

3.測試

（測試成功~）

相關推薦