SparkStreaming Direct 方式中手動管理 Kafka Offset 的示例程式碼

阿新 • • 發佈：2018-11-09

在大資料的場景下，流式處理都會藉助 Kafka 作為訊息接入的中介軟體，且 SparkStreaming 中 Direct 方式的優越性，現在可以說都使用 Direct 方式來獲取 Kafka 資料

Direct 方式是採用 Kafka 低階的 API 來獲取資料，也就是說我們要自己來管理這個offset
SparkStreaming 中可以用 StreamingContext 的 checkpiont 方法來自動幫我們管理 offset。但是有一些缺點：

checkpoint 是在每次處理完成後自動幫我們提交的，但是如果我們想實現 at most onec 語義時，checkpoint就不滿足

當 Spark 版本升級後，新版本不識別老版本 checkpoint 的資訊

所以我們可以自己手動來管理 offset 來達到不同語義的要求，下面是將 offset 儲存到 zookeeper 的樣例程式碼：

main類：

import kafka.message.MessageAndMetadata
import kafka.serializer.StringDecoder
import org.apache.spark.SparkConf
import org.apache.spark.streaming.kafka.{HasOffsetRanges, OffsetRange, KafkaUtils}
import 
 org.apache.spark.streaming.{Seconds, StreamingContext}
import sql.StreamingExamples

object OffsetTest extends App{
  StreamingExamples.setStreamingLogLevels()
  val topic = "iso8583-r3p3"
  val brokers = "ido001.gzcb.com:9092,ido002.gzcb.com:9092,ido003.gzcb.com:9092"

  val sparkConf = new SparkConf().setAppName("Iso8583_KafkaDirect" 
).setIfMissing("spark.master","local[*]")
  val ssc = new StreamingContext(sparkConf, Seconds(3))

  val fromOffSets = ZkUtil.getOffset(topic)
  val messageHandler = (mmd: MessageAndMetadata[String,String]) => (mmd.message())
  val kafkaParams = Map[String, String]("metadata.broker.list" -> brokers, "group.id" -> "lwj")
  val messages = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder, String](ssc, kafkaParams, fromOffSets, messageHandler)

  //儲存每個批次的offset
  var offsetRanges = Array[OffsetRange]()
  messages.transform(rdd => {
    offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
    rdd
  }).foreachRDD(rdd => {
    //offset管理
    val offsets = scala.collection.mutable.ArrayBuffer[String]()
    for (o <- offsetRanges){
      println(s"${o.topic} ${o.partition} ${o.fromOffset} ${o.untilOffset}")
      offsets += s"${o.topic},${o.partition},${o.untilOffset}"
    }
    //todo offset儲存的時間點 根據需求而定
    ZkUtil.setOffset(offsets.toArray)

    //todo 業務邏輯
    println("#################")
    //rdd.foreach(println)
    println(rdd.count())
  })

  ssc.start()
  ssc.awaitTermination()
}

ZkUtil 工具類：

import java.util
import java.util.concurrent.CountDownLatch
import kafka.common.TopicAndPartition
import org.apache.zookeeper.Watcher.Event
import org.apache.zookeeper._

/**
  * Zookeeper工具類
  *
  * @author lwj
  * @date 2018/04/25
  */
object ZkUtil extends Watcher with Serializable{

  protected var countDownLatch: CountDownLatch = new CountDownLatch(1)
  override def process(event: WatchedEvent): Unit = {
    if (event.getState eq Event.KeeperState.SyncConnected) {
      countDownLatch.countDown
    }
  }

  val zk = new ZooKeeper("181.137.128.151:2181,181.137.128.152:2181,181.137.128.153:2181", 5000, ZkUtil)
  val parentPath = "/lwj"
  //預設partition的數量
  val initPartitions = 3
  //預設offset的值
  val initOffset = 0+""
  //這裡雖然沒有顯示的呼叫，但是會被執行
  if (zk.exists(parentPath, false) == null){
    zk.create(parentPath, "0".getBytes, ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT)
  }

  /**
    * 通過topic獲取partition以及相應的offset
    *
    * @param topic
    * @return
    */
  def getOffset(topic:String): Map[TopicAndPartition, Long] ={
    val zkPath = parentPath + "/" + topic
    val map = scala.collection.mutable.Map[TopicAndPartition, Long]()

    /**
      * 如果topic節點不存在，那麼就建立
      * 並且直接初始化partition節點，而且初始化值都為 initOffset
      */
    if (zk.exists(zkPath, false) == null){
      zk.create(zkPath, "0".getBytes, ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT)
      for(i <- 0 to initPartitions - 1){
        zk.create(zkPath + "/" + i, initOffset.getBytes, ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT)
      }
    }
    /**
      * 返回offset
      */
    val children = zk.getChildren(zkPath, false)
    val iterator: util.Iterator[String] = children.iterator()
    while (iterator.hasNext){
        val child: String = iterator.next()
        val offset = new String(zk.getData(zkPath +"/"+ child, false, null))
        val tp = new TopicAndPartition(topic, child.toInt)
        map += (tp -> offset.toLong)

    }
    map.toMap
  }

  /**
    * 設定偏移量
    *
    * @param offsets "topic,partition,offset"
    */
  def setOffset(offsets : Array[String]): Unit ={
    offsets.foreach(off =>{
      val splits: Array[String] = off.split(",")
      val partitionPath = parentPath + "/" + splits(0) + "/" + splits(1)
      if (zk.exists(partitionPath, false) == null){
        //預設值是0
        zk.create(partitionPath, splits(2).getBytes, ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT)
      }else{
        zk.setData(partitionPath, splits(2).getBytes, -1)
      }
    })
  }
}

以上程式碼僅供參考，有什麼問題或者更好的想法可以留言討論討論哈~

SparkStreaming Direct 方式中手動管理 Kafka Offset 的示例程式碼

在大資料的場景下，流式處理都會藉助 Kafka 作為訊息接入的中介軟體，且 SparkStreaming 中 Direct 方式的優越性，現在可以說都使用 Direct 方式來獲取 Kafka 資料 Direct 方式是採用 Kafka 低階的 API 來獲取資料，也就是說我們要自己

Spring中手動開啟kafka監聽.md

0. 背景重現最近搭建一個新專案，基於SpringBoot框架，使用Kafka做訊息中介軟體。使用@KafkaListener註解來建立一個消費者，實現對Kafka訊息的消費。我計劃的執行順序是這樣的：服務啟動之後，建立Consumer例項，執行loadResourceConfi

node中操作mysql的CRUD示例程式碼

var mysql = require('mysql'); // 1. 建立連線 var connection = mysql.createConnection({ host: 'localhost', user: 'root', password: '

【Azure Developer】解決Azure Key Vault管理Storage的示例程式碼在中國區Azure遇見的各種認證/授權問題 - C# Example Code

問題描述使用Azure金鑰保管庫(Key Vault)來託管儲存賬號(Storage Account)金鑰的示例中，從Github中下載的示例程式碼在中國區Azure執行時候會遇見各種認證和授權問題，以下列舉出執行程式碼中遇見的各種異常： "AADSTS90002: Tenant 'xxxxxxxx-66

【原始碼追蹤】SparkStreaming 中用 Direct 方式每次從 Kafka 拉取多少條資料（offset取值範圍）

我們知道 SparkStreaming 用 Direct 的方式拉取 Kafka 資料時，是根據 kafka 中的 fromOffsets 和 untilOffsets 來進行獲取資料的，而 fromOffsets 一般都是需要我們自己管理的，而每批次的 untilOffsets 是由

SparkStreaming整合Kafka--Direct方式

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.

SparkStreaming（13）：高階資料來源kafka Direct方式（生產）

【Direct方式，直接從kafka的broker讀取資料，而Receiver方式，從zk獲得偏移量資訊，效能要差一些！】 1.測試環境（1）啟動zk bin/zkServer.sh start （2) 啟動kafka bin/kafka-server-start.sh -da

SparkStreaming整合kafka直連模式direct方式

org.apache.spark spark-streaming_2.10 1.6.2 org.apache.spark spark-streaming-kafka_2.10 1.

Spark Streaming 中管理 Kafka Offsets 的幾種方式

本文轉載自：https://www.jianshu.com/p/ef3f15cf400d（點選下

大資料學習之路98-Zookeeper管理Kafka的OffSet

我們之前的OffSet都是交給broker自己管理的，現在我們希望自己管理。我們可以通過zookeeper進行管理。我們在程式中想要使用zookeeper,那麼就肯定會有api允許我們操作。 new ZKGroupTopicDirs() 注意：這裡使用客戶端的時候導包為：

kafka結合Spark-streming的直連(Direct)方式

說明：此程式使用的scala編寫在spark-stream+kafka使用的時候，有兩種連線方式一種是Receiver連線方式，一種是Direct連線方式。　　兩種連線方式簡介：　　Receiver接受固定時間間隔的資料（放在記憶體中），達到固定的時間才進行處理，效率極並且容易丟失

普通java類中手動獲取spring管理的物件

1. 獲取ApplicationContext.xml中的bean BeanFactory factory = new ClassPathXmlApplicationContext("classpath:/applicationContext.xml"); TestService testSer

Esxi中手動實踐出來的自動化運維方法----日常批量管理操作好助手（Ansible）

在Linux的世界，Ansible是實現自動化運維的常用好工具，通過它可以很好地批理執行命令，實現高效對大量伺服器的管理，極大提高運維效率（當然現在WINDOS下也可以實用Ansible進行批量管理實現運維自動化，不過相對應用較少）。由於公司裡有許多ESXI伺服器，而時常我也會用SSH上去進行

Esxi中手動獨家實踐出來的自動化運維方法^.^----日常批量管理操作好助手（Ansible）

文件中 vim 方法 linu sha 自動化運維 keys 多好 bad 在Linux的世界，Ansible是實現自動化運維的常用好工具，通過它可以很好地批理執行命令，實現高效對大量服務器的管理，極大提高運維效率（當然現在WINDOS下也可以實用Ansible進行批量管理

如何從Excle管理軟體的方式中走出來

開篇小段子：業界有個小段子，研發不是請客吃飯，是傾家蕩產。是的，研發人員，尤其是從事軟體的工程師門，普遍是比較傲嬌的，在軟體產品沒有賣出去形成收入前，軟體工程師的投入都是剛性成本。所以，為什麼很多軟體企業的老闆對於敏捷，DevOps其實並沒有深入瞭解，但是依然很歡迎呢，因為“快”這個詞

華為敏捷DevOps實踐：如何從Excle管理軟體的方式中走出來

大家好，我是華為DevCloud 專案管理服務的產品經理恆少：）作為佈道師和產品經理，出差各地接觸客戶是常態，線下和華為雲的客戶交流、佈道、技術沙龍。但是線下交流，覆蓋的使用者總還是少數。我希望借助線上的平臺，和使用者持續交流華為在研發效能提升上的思索

如何手動更新Kafka中某個Topic的偏移量

轉載：我們在使用consumer消費資料時，有些情況下我們需要對已經消費過的資料進行重新消費，這裡介紹kafka中兩種重新消費資料的方法。 1. 修改offset 我們在使用consumer消費的時候，每個topic會產生一個偏移量，這個偏移量保證我們消費的訊息順

Spark Streaming消費Kafka Direct方式資料零丟失實現

一、概述上次寫這篇文章文章的時候，Spark還是1.x，kafka還是0.8x版本，轉眼間spark到了2.x，kafka也到了2.x，儲存offset的方式也發生了改變，筆者根據上篇文章和網上文章，將offset儲存到Redis，既保證了併發也保證了資料不丟失，經過測試，有效。二、

【十五】Spark Streaming整合Kafka使用Direct方式（使用Scala語言）

官網介紹 Kafka提供了新的consumer api 在0.8版本和0.10版本之間。0.8的整合是相容0.9和0.10的。但是0.10的整合不相容以前的版本。這裡使用的整合是spark-streaming-kafka-0-8。官方文件配置SparkStrea

Go 語言中手動記憶體管理

Go 語言是自帶GC的, 相對C語言等的手動記憶體管理省事很多, 弊端便是會消耗更多的記憶體, 以及在GC時導致整個程式的停頓. 在某些特殊場合, 如果能夠可選地手動進行記憶體管理, 效果會好不少. Go 目前的 GC 實現比較簡單(mark-sweep演算法), 程序的記憶體使用量取決於兩次GC操作直接的

SparkStreaming Direct 方式中手動管理 Kafka Offset 的示例程式碼

相關推薦