spark streaming中維護kafka偏移量到外部介質

阿新 • • 發佈：2019-04-03

.exe topic _each keys off exec lose eat comm

spark streaming中維護kafka偏移量到外部介質

以kafka偏移量維護到redis為例。

redis存儲格式

使用的數據結構為string，其中key為topic:partition，value為offset。

例如bobo這個topic下有3個分區，則key-value結構如下：

bobo:0的偏移量為x
bobo:1的偏移量為y
bobo:2的偏移量為z

消費時指定offset

主要是如下兩個方法：

createKafkaStream()創建kakfa流
getOffsets()從redis中獲取offsets

/**
  * kakfa參數
  */
private val kafkaParams = Map[String, Object](
  "bootstrap.servers" -> "crpprdap25:6667,crpprdap26:6667,crpprdap27:6667",
  "key.deserializer" -> classOf[StringDeserializer],
  "value.deserializer" -> classOf[StringDeserializer],
  "group.id" -> "use_a_separate_group_id_for_each_stream",
  // 註意這裏是none。
  "auto.offset.reset" -> "none",
  "enable.auto.commit" -> (false: java.lang.Boolean)
)

// `bobo`topic下有3個分區
private val topicPartitions = Map[String, Int]("bobo" -> 3)

// 從redis中獲取offsets
def getOffsets: Map[TopicPartition, Long] = {
  val jedis = InternalRedisClient.getResource

  // 設置每個分區起始的offset
  val offsets = mutable.Map[TopicPartition, Long]()

  topicPartitions.foreach { it =>
    val topic = it._1
    val partitions = it._2
    // 遍歷分區，設置每個topic下對應partition的offset
    for (partition <- 0 until partitions) {
      val topicPartitionKey = topic + ":" + partition
      var lastOffset = 0L
      val lastSavedOffset = jedis.get(topicPartitionKey)

      if (null != lastSavedOffset) {
        try {
          lastOffset = lastSavedOffset.toLong
        } catch {
          case e: Exception =>
            log.error("get lastSavedOffset error", e)
            System.exit(1)
        }
      }
      log.info("from redis topic: {}, partition: {}, lastOffset: {}", topic, partition, lastOffset)

      // 添加
      offsets += (new TopicPartition(topic, partition) -> lastOffset)
    }
  }

  InternalRedisClient.returnResource(jedis)

  offsets.toMap
}

/**
  * 創建kakfa流
  *
  * @param ssc StreamingContext
  * @return InputDStream
  */
def createKafkaStream(ssc: StreamingContext): InputDStream[ConsumerRecord[String, String]] = {
  val offsets = getOffsets

  // 創建kafka stream
  val stream = KafkaUtils.createDirectStream[String, String](
    ssc,
    LocationStrategies.PreferConsistent,
    ConsumerStrategies.Assign[String, String](offsets.keys.toList, kafkaParams, offsets)
  )
  stream
}

其中：核心是通過ConsumerStrategies.Assign方法來指定topic下對應partition的offset信息。

更新offset到redis

最後將offset信息維護到redis即可。

/**
  * 消費
  *
  * @param stream InputDStream
  */
def consume(stream: InputDStream[ConsumerRecord[String, String]]): Unit = {
  stream.foreachRDD { rdd =>
    // 獲取offset信息
    val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

    // 計算相關指標，這裏就統計下條數了
    val total = rdd.count()

    val jedis = InternalRedisClient.getResource
    val pipeline = jedis.pipelined()
    // 會阻塞redis
    pipeline.multi()

    // 更新相關指標
    pipeline.incrBy("totalRecords", total)

    // 更新offset
    offsetRanges.foreach { offsetRange =>
      log.info("save offsets, topic: {}, partition: {}, offset: {}", offsetRange.topic, offsetRange.partition, offsetRange.untilOffset)
      val topicPartitionKey = offsetRange.topic + ":" + offsetRange.partition
      pipeline.set(topicPartitionKey, offsetRange.untilOffset + "")
    }

    // 執行，釋放
    pipeline.exec()
    pipeline.sync()
    pipeline.close()
    InternalRedisClient.returnResource(jedis)
  }
}

參考

實時流計算、Spark Streaming、Kafka、Redis、Exactly-once、實時去重

spark代碼

順便貼一下自己整理的spark相關的代碼。

Github地址：spark-programming

主要包括：

RDD的基本使用
SQL
- jdbc（讀、寫）
- hive（讀、寫、動態分區）
Streaming
- 消費kafka（手動提交、手動維護offset）
- 寫入HBase
- 寫入Hive

spark streaming中維護kafka偏移量到外部介質

.exe topic _each keys off exec lose eat comm spark streaming中維護kafka偏移量到外部介質以kafka偏移量維護到redis為例。 redis存儲格式使用的數據結構為string，其中key為topic:

Spark Streaming 中管理 Kafka Offsets 的幾種方式

本文轉載自：https://www.jianshu.com/p/ef3f15cf400d（點選下

Spark Streaming管理Kafka偏移量

前言為了讓Spark Streaming消費kafka的資料不丟資料，可以建立Kafka Direct DStream，由Spark Streaming自己管理offset，並不是存到zookeeper。啟用Spark Streaming的 checkpoints是儲存偏移量的最簡單方法，因為它可以

Spark Streaming 之 Kafka 偏移量管理

本文主要介紹 Spark Streaming 應用開發中消費 Kafka 訊息的相關內容，文章著重突出了開發環境的配置以及手動管理 Kafka 偏移量的實現。一、開發環境 1、元件版本 CDH 叢集版本：6.0.1 Spark 版本：2.2.0 Kafka 版本：1.0.1 2、M

spark streaming 中 direct 直連方式從kafka中怎麼拉取資料

我們知道 SparkStreaming 用 Direct 的方式拉取 Kafka 資料時，是根據 kafka 中的 fromOffsets 和 untilOffsets 來進行獲取資料的，而 fromOffsets 一般都是需要我們自己管理的，而每批次的 untilOffse

Spark Streaming中的操作函數講解

csdn 後綴 rep 包含著所有並行計算技術分享 ref filter Spark Streaming中的操作函數講解根據根據Spark官方文檔中的描述，在Spark Streaming應用中，一個DStream對象可以調用多種操作，主要分為以下幾類 Tra

spark streaming中WordCount

通過一些簡單的案例，可以知道一些大致的用法 1.對每一個批次的資料進行操作： import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import org.apache.spark.streami

spark streaming中reduceByKeyAndWindow簡單例子

視窗的一些簡單操作 import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingCon

spark streaming中transform過濾廣告黑名單

/* transform操作，應用在DStream上時，可以用於執行任意的RDD到RDD的轉換操作。它可以用於實現，DStream API中所沒有提供的操作。比如說，DStream API中，並沒有提供將一個DStream中的每個batch，與一個特定的RDD進行joi

Spark Streaming 中如何實現 Exactly-Once 語義

Exactly-once 語義是實時計算的難點之一。要做到每一條記錄只會被處理一次，即使伺服器或網路發生故障時也能保證沒有遺漏，這不僅需要實時計算框架本身的支援，還對上游的訊息系統、下游的資料儲存有所要求。此外，我們在編寫計算流程時也需要遵循一定規範，才能真正實

40：Spark Streaming中KafkaReceiver內幕實現徹底解密

本期內容： 1. KafkaInputDStream原始碼解密 2. KafkaReceiver原始碼解密 Direct方式，是No Receiver方式，和普通Receiver方式，最大的

Spark Streaming中withWatermark的簡單嘗試

我們在處理流資料的時候，往往會有實時性要求。可是如果我們直接按照程式所在伺服器的當前時間計算又不行，比如當上遊日志資料延遲了，則所有的這部分資料都會被拋棄掉。所以一般我們在記錄日誌的時候，加上日誌的時間戳。這樣我們在進行流處理的時候，就可以把日誌記錄的時間拿出來，根據這個時間

Spark Streaming中的Receiver方式和直連方式

Spark Streaming從Kafka中接受資料的時候有兩種方式，一種是使用Receiver的老方法，另一種是使用直連的方法 1.Receiver方式 Receiver是使用Kafka高階消費者API實現的，與所有接收器一樣，從Kafka通過Receiver接收的資料

spark streaming中的廣播變數應用

1. 廣播變數我們知道spark 的廣播變數允許快取一個只讀的變數在每臺機器上面，而不是每個任務儲存一份拷貝。常見於spark在一些全域性統計的場景中應用。通過廣播變數，能夠以一種更有效率的方式將一個大資料量輸入集合的副本分配給每個節點。Spark也嘗試著利用有效的廣播演

Spark Streaming中的基本操作函式例項

該文例項我的碼雲直達車請了解一些基本資訊： DStream是Spark Streaming提供的基本抽象。它表示連續的資料流，可以是從源接收的輸入資料流，也可以是通過轉換輸入流生成的已處理資料流。在內部，DStream由一系列連續的RDD表示，這是Spar

Flink與Spark Streaming在與kafka結合的區別！

本文主要是想聊聊flink與kafka結合。當然，單純的介紹flink與kafka的結合呢，比較

spark Streaming 直接消費Kafka資料，儲存到 HDFS 實戰程式設計實踐

最近在學習spark streaming 相關知識，現在總結一下主要程式碼如下 def createStreamingContext():StreamingContext ={ val sparkConf = new SparkConf().setAppName("

spark-streaming系列------- 3. Kafka DirectDStream方式資料的接收

KafkaRDD分割槽個數的確定和每個分割槽資料接收的計算在KafkUtils.createDirectStream建立了DirectDStream，程式碼如下：def createDirectStream[ K: ClassTag, V: ClassTa

Spark Streaming中reduceByKeyAndWindow例項開發

package SparkStreamingTest.Scala import org.apache.log4j.{Level, Logger} import org.apache.spark.Spa

如何管理Spark Streaming消費Kafka的偏移量（二）

上篇文章，討論了在spark streaming中管理消費kafka的偏移量的方式，本篇就接著聊聊上次說升級失敗的案例。事情發生一個月前，由於當時我們想提高spark streaming程式的並行處理效能，於是需要增加kafka分割槽個數，，這裡需要說下，在新版本sp

spark streaming中維護kafka偏移量到外部介質

spark streaming中維護kafka偏移量到外部介質

redis存儲格式

消費時指定offset

更新offset到redis

參考

spark代碼

相關推薦