【Big Data 每日一題20180922】sparkstreaming同時消費多個topic的資料實現exactly-once的語義

阿新 • • 發佈：2019-01-15

最近很多人問我,sparkstreaming怎麼消費多個topic的資料,自己維護offest,其實這個跟消費一個topic是一樣的,但還是有很多問我,今天就簡單的寫一個demo,供大家參考,直接上程式碼吧,已經測試過了.我把offest存到redis裡了,當然也可以儲存在zk,kafka,mysql,hbase中都可以,看自己的選擇.(用了3個topic,每個topic5個partition.)

package spark
 
import java.io.File
import kafka.{PropertiesScalaUtils, RedisKeysListUtils}
import kafka.streamingRedisHive.{dbIndex}
import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.log4j.{Level, Logger}
import org.apache.spark.TaskContext
import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.kafka010._
import redis.RedisPool
 
object moreTopic {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org.apache.spark").setLevel(Level.INFO)
    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.INFO)
    Logger.getLogger("org.apache.kafka.clients.consumer").setLevel(Level.INFO)
    val warehouseLocation = new File("hdfs://cluster/hive/warehouse").getAbsolutePath
    val spark = SparkSession.builder().appName("Spark Jason").config("spark.sql.warehouse.dir", warehouseLocation).enableHiveSupport().getOrCreate()
    spark.conf.set("spark.streaming.concurrentJobs", 10)
    spark.conf.set("spark.streaming.kafka.maxRetries", 50)
    spark.conf.set("spark.streaming.stopGracefullyOnShutdown",true)
    spark.conf.set("spark.streaming.backpressure.enabled",true)
    spark.conf.set("spark.streaming.backpressure.initialRate",5000)
    spark.conf.set("spark.streaming.kafka.maxRatePerPartition", 3000)
    @transient
    val sc = spark.sparkContext
    val scc = new StreamingContext(sc, Seconds(2))
    val kafkaParams = Map[String, Object](
      "auto.offset.reset" -> "latest",
      "value.deserializer" -> classOf[StringDeserializer]
      , "key.deserializer" -> classOf[StringDeserializer]
      , "bootstrap.servers" -> PropertiesScalaUtils.loadProperties("broker")
      , "group.id" -> PropertiesScalaUtils.loadProperties("groupId")
      , "enable.auto.commit" -> (false: java.lang.Boolean)
    )
    var stream: InputDStream[ConsumerRecord[String, String]] = null
    val topics = Array("jason_20180519", "jason_0606","jason_test")
    val maxTotal = 200
    val maxIdle = 100
    val minIdle = 10
    val testOnBorrow = false
    val testOnReturn = false
    val maxWaitMillis = 5000
    RedisPool.makePool(PropertiesScalaUtils.loadProperties("redisHost"), PropertiesScalaUtils.loadProperties("redisPort").toInt, maxTotal, maxIdle, minIdle, testOnBorrow, testOnReturn, maxWaitMillis)
    val jedis = RedisPool.getPool.getResource
    jedis.select(dbIndex)
    val keys = jedis.keys(topics(0) + "*")
    val keys_2 = jedis.keys(topics(1) +"*")
    val keys_3 = jedis.keys(topics(2) +"*")
    if(keys.size() == 0 && keys_2.size() == 0 && keys_3.size() == 0){
      println("第一次啟動,從頭開始消費資料-----------------------------------------------------------")
      stream = KafkaUtils.createDirectStream[String, String](
        scc,
        LocationStrategies.PreferConsistent,
        ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)
      )
    }else{
      println("不是第一次啟動,從上次的offest開始消費資料-----------------------------------------------")
      stream = KafkaUtils.createDirectStream[String, String](
        scc,
        LocationStrategies.PreferConsistent,
        ConsumerStrategies.Subscribe[String, String](topics, kafkaParams, RedisKeysListUtils.getRedisOffest(topics,jedis)))
    }
    jedis.close()
    stream.foreachRDD(rdd=>{
      val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
      rdd.foreachPartition(partition=>{
        val o = offsetRanges(TaskContext.get.partitionId)
        println(s"${o.topic} ${o.partition} ${o.fromOffset} ${o.untilOffset}")
        val jedis_jason = RedisPool.getPool.getResource
        jedis_jason.select(dbIndex)
        partition.foreach(pair=>{
          //自己的計算邏輯;
        })
        offsetRanges.foreach { offsetRange =>
          println("partition : " + offsetRange.partition + " fromOffset:  " + offsetRange.fromOffset + " untilOffset: " + offsetRange.untilOffset)
          val topic_partition_key_new = offsetRange.topic + "_" + offsetRange.partition
          jedis_jason.set(topic_partition_key_new, offsetRange.untilOffset + "")
        }
        jedis_jason.close()
      })
    })
    scc.start()
    scc.awaitTermination()
  }
}

轉：https://blog.csdn.net/xianpanjia4616/article/details/81709075 --------------------- 本文來自 JasonLee_coding 的CSDN 部落格，全文地址請點選：https://blog.csdn.net/xianpanjia4616/article/details/81709075?utm_source=copy

【Big Data 每日一題20180922】sparkstreaming同時消費多個topic的資料實現exactly-once的語義

【Big Data 每日一題20180922】sparkstreaming同時消費多個topic的資料實現exactly-once的語義

【Big Data 每日一題20180916】Spark累加器(Accumulator)陷阱及解決辦法

【Big Data 每日一題20180927】Structured Streaming 之 Event Time 解析

【Big Data 每日一題20180926】Structured Streaming 之狀態儲存解析

【Big Data 每日一題20181104】Minor GC、Major GC和Full GC之間的區別

【Big Data 每日一題20181028】Alluxio簡介

【Big Data 每日一題20180821】Spark中ml和mllib的區別

【Big Data 每日一題20181116】塊儲存、檔案儲存、物件儲存意義及差異

【Big Data 每日一題20180831】Spark 的 task 資料 locality？

【Big Data 每日一題20180921】Spark 序列化問題

【Big Data 每日一題-20181115】linux 命令技巧 chmod & Set-User-ID & Set-Group-ID

【Big Data 每日一題20181031】深入分析volatile的實現原理

【Big Data 每日一題20181101】如何用訊息系統避免分散式事務？

【Big Data 每日一題20180822】Java動態編譯優化——URLClassLoader 記憶體洩漏問題解決

【Big Data 每日一題20181103】你應該知道的RPC原理

【Big Data 每日一題20181111】為什麼有棧記憶體和堆記憶體之分

【Big Data 每日一題】Spark開發效能調優總結

【Big Data 每日一題】目錄

CTF 【每日一題20160630】PYTHON 位元組碼

CTF 【每日一題20160607】

【Big Data 每日一題20180922】sparkstreaming同時消費多個topic的資料實現exactly-once的語義

相關推薦