Spark Streaming通過直連的方式消費Kafka中的資料

阿新 • • 發佈：2019-01-22

為什麼採用直連（createDirectStream）的方式，主要有以下幾個原因：

1.createDirectStream的方式從Kafka叢集中讀取資料，並且在Spark Streaming系統裡面維護偏移量相關的資訊，實現零資料丟失，保證不重複消費，比createStream更高效；

2.建立的DStream的rdd的partition做到了和Kafka中topic的partition一一對應。

但是採用直連（createDirectStream）的方式有一個缺點，就是不再向zookeeper中更新offset資訊。

因此，在採用直連的方式消費kafka中的資料的時候，大體思路是首先獲取儲存在zookeeper中的偏移量資訊，根據偏移量資訊去建立stream，消費資料後再把當前的偏移量寫入zookeeper中。在建立stream時需要考慮以下幾點：

1.zookeeper中沒有偏移量資訊，此時按照自定義的kafka引數的配置建立stream；

2.zookeeper中儲存了偏移量資訊，但由於各種原因kafka清理掉了該處偏移量的資料，此時需要對偏移量進行修正，否則在執行時會出現偏移量越界的異常。解決方法是呼叫spark-streaming-kafka API 中 KafkaCluster這個類中的方法獲取broker中實際的最大最小偏移量，和zookeeper中偏移量進行對比來修正偏移量資訊。在2.0以前的版本中KafkaCluster這個類是private許可權的，需要把它拷貝到專案裡使用。2.0以後的版本中修改KafkaCluster的許可權為public，可以盡情呼叫了。

為了方便呼叫，本人在使用時寫了一個KafkaHelper的類，將建立stream和更新zookeeper中offset的程式碼封裝了起來，程式碼如下：

import kafka.common.TopicAndPartition
import kafka.message.MessageAndMetadata
import kafka.serializer.StringDecoder
import kafka.utils.{ZKGroupTopicDirs, ZkUtils}
import org.I0Itec.zkclient.ZkClient
import org.apache.spark.SparkException
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka.{KafkaCluster, KafkaUtils, OffsetRange}
import org.apache.spark.streaming.kafka.KafkaCluster.Err

/**
  * KafkaHelper類提供兩個共有方法，一個用來建立direct方式的DStream，另一個用來更新zookeeper中的消費偏移量
  * @param kafkaPrams kafka配置引數
  * @param zkQuorum zookeeper列表
  * @param group 消費組
  * @param topic 消費主題
  */
class KafkaHelper(kafkaPrams:Map[String,String],zkQuorum:String,group:String,topic:String) extends Serializable{

  private val kc = new KafkaCluster(kafkaPrams)
  private val zkClient = new ZkClient(zkQuorum)
  private val topics = Set(topic)

  /**
    * 獲取消費組group下的主題topic在zookeeper中的儲存路徑
    * @return
    */
  private def getZkPath():String={
    val topicDirs = new ZKGroupTopicDirs(group,topic)
    val zkPath = topicDirs.consumerOffsetDir
    zkPath
  }

  /**
    * 獲取偏移量資訊
    * @param children 分割槽數
    * @param zkPath zookeeper中的topic資訊的路徑
    * @param earlistLeaderOffsets broker中的實際最小偏移量
    * @param latestLeaderOffsets broker中的實際最大偏移量
    * @return
    */
  private def getOffsets(children:Int,zkPath:String,earlistLeaderOffsets:Map[TopicAndPartition, KafkaCluster.LeaderOffset],latestLeaderOffsets: Map[TopicAndPartition, KafkaCluster.LeaderOffset]): Map[TopicAndPartition, Long] = {
    var fromOffsets: Map[TopicAndPartition, Long] = Map()
    for(i <- 0 until children){
      //獲取zookeeper記錄的分割槽偏移量
      val zkOffset = zkClient.readData[String](s"${zkPath}/${i}").toLong
      val tp = TopicAndPartition(topic,i)
      //獲取broker中實際的最小和最大偏移量
      val earlistOffset: Long = earlistLeaderOffsets(tp).offset
      val latestOffset: Long = latestLeaderOffsets(tp).offset
      //將實際的偏移量和zookeeper記錄的偏移量進行對比，如果zookeeper中記錄的偏移量在實際的偏移量範圍內則使用zookeeper中的偏移量，
      //反之，使用實際的broker中的最小偏移量
      if(zkOffset>=earlistOffset && zkOffset<=latestOffset) {
        fromOffsets += (tp -> zkOffset)
      }else{
        fromOffsets += (tp -> earlistOffset)
      }
    }
    fromOffsets
  }

  /**
    * 建立DStream
    * @param ssc
    * @return
    */
  def createDirectStream(ssc:StreamingContext):InputDStream[(String, String)]={
    //----------------------獲取broker中實際偏移量---------------------------------------------
    val partitionsE: Either[Err, Set[TopicAndPartition]] = kc.getPartitions(topics)
    if(partitionsE.isLeft)
      throw new SparkException("get kafka partitions failed:")
    val partitions = partitionsE.right.get
    val earlistLeaderOffsetsE: Either[Err, Map[TopicAndPartition, KafkaCluster.LeaderOffset]] = kc.getEarliestLeaderOffsets(partitions)
    if(earlistLeaderOffsetsE.isLeft)
      throw new SparkException("get kafka earlistLeaderOffsets failed:")
    val earlistLeaderOffsets: Map[TopicAndPartition, KafkaCluster.LeaderOffset] = earlistLeaderOffsetsE.right.get
    val latestLeaderOffsetsE: Either[Err, Map[TopicAndPartition, KafkaCluster.LeaderOffset]] = kc.getLatestLeaderOffsets(partitions)
    if(latestLeaderOffsetsE.isLeft)
      throw new SparkException("get kafka latestLeaderOffsets failed:")
    val latestLeaderOffsets: Map[TopicAndPartition, KafkaCluster.LeaderOffset] = latestLeaderOffsetsE.right.get
    //----------------------建立kafkaStream----------------------------------------------------
    var kafkaStream:InputDStream[(String, String)]=null
    val zkPath: String = getZkPath()
    val children = zkClient.countChildren(zkPath)
    //根據zookeeper中是否有偏移量資料判斷有沒有消費過kafka中的資料
    if(children > 0){
      val fromOffsets:Map[TopicAndPartition, Long] = getOffsets(children,zkPath,earlistLeaderOffsets,latestLeaderOffsets)
      val messageHandler = (mmd: MessageAndMetadata[String, String]) => (mmd.topic, mmd.message())
      //如果消費過，根據偏移量建立Stream
      kafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder, (String, String)](
        ssc, kafkaPrams, fromOffsets, messageHandler)
    }else{
      //如果沒有消費過，根據kafkaPrams配置資訊從最早的資料開始建立Stream
      kafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaPrams, topics)
    }
    kafkaStream
  }

  /**
    * 更新zookeeper中的偏移量
    * @param offsetRanges
    */
  def updateZkOffsets(offsetRanges:Array[OffsetRange])={
    val zkPath: String = getZkPath()
    for( o <- offsetRanges){
      val newZkPath = s"${zkPath}/${o.partition}"
      //將該 partition 的 offset 儲存到 zookeeper
      ZkUtils.updatePersistentPath(zkClient, newZkPath, o.fromOffset.toString)
    }
  }
}

測試程式碼如下：

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka.{HasOffsetRanges, OffsetRange}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object TestKafkaHelper {

  def main(args: Array[String]): Unit = {

    if(args.length<5){
      println("Usage:<timeInterval> <brokerList> <zkQuorum> <topic> <group>")
      System.exit(1)
    }
    val Array(timeInterval,brokerList,zkQuorum,topic,group) = args

    val conf = new SparkConf().setAppName("KafkaDirectStream").setMaster("local[2]")
    val ssc = new StreamingContext(conf,Seconds(timeInterval.toInt))

    //kafka配置引數
    val kafkaParams = Map(
      "metadata.broker.list" -> brokerList,
      "group.id" -> group,
      "auto.offset.reset" -> kafka.api.OffsetRequest.SmallestTimeString
    )

    val kafkaHelper = new KafkaHelper(kafkaParams,zkQuorum,topic,group)

    val kafkaStream: InputDStream[(String, String)] = kafkaHelper.createDirectStream(ssc)

    var offsetRanges = Array[OffsetRange]()

    kafkaStream.transform( rdd =>{
      offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
      rdd
    }).map( msg => msg._2)
      .foreachRDD( rdd => {
        rdd.foreachPartition( partition =>{
          partition.foreach( record =>{
            //處理資料的方法
            println(record)
          })
        })
        kafkaHelper.updateZkOffsets(offsetRanges)
      })

    ssc.start()
    ssc.awaitTermination()
    ssc.stop()
  }
}

Spark Streaming通過直連的方式消費Kafka中的資料

為什麼採用直連（createDirectStream）的方式，主要有以下幾個原因： 1.createDirectStream的方式從Kafka叢集中讀取資料，並且在Spark Streaming系統裡面維護偏移量相關的資訊，實現零資料丟失，保證不重複消費，比createS

spark streaming 中 direct 直連方式從kafka中怎麼拉取資料

我們知道 SparkStreaming 用 Direct 的方式拉取 Kafka 資料時，是根據 kafka 中的 fromOffsets 和 untilOffsets 來進行獲取資料的，而 fromOffsets 一般都是需要我們自己管理的，而每批次的 untilOffse

SparkStreaming與kafka通過直連方式讀取資料

1、Spark-Streaming的receive的方式和直連方式有什麼區別: Receive接收固定時間間隔的資料（放在記憶體中），達到固定的時間才進行處理，效率低並且容易丟失資料（Kafka高階API），自動維護偏移量 Direct直連方式，相當於直接連線到Kafka的分割槽上，相當於K

kafka直連方式消費多個topic

一個消費者組可以消費多個topic，以前寫過一篇一個消費者消費一個topic的，這次的是一個消費者組通過直連方式消費多個topic,做了小測試，結果是正確的，通過檢視zookeeper的客戶端，zookeeper記錄了偏移量 package day04 /*

spark streaming從指定offset處消費Kafka數據

tpc asi 4.2 nes 配置 sof 我們 erl examples spark streaming從指定offset處消費Kafka數據 2017-06-13 15:19 770人閱讀評論(2) 收藏舉報分類： spark（5）原文地址:htt

大資料學習之路97-kafka直連方式（spark streaming 整合kafka 0.10版本）

我們之前SparkStreaming整合Kafka的時候用的是傻瓜式的方式-----createStream,但是這種方式的效率很低。而且在kafka 0.10版本之後就不再提供了。接下來我們使用Kafka直連的方式，這種方式其實是呼叫Kafka底層的消費資料的API,我們知道，越底層的東

[Spark]Spark-streaming通過Receiver方式實時消費Kafka流程（Yarn-cluster）

1.啟動zookeeper 2.啟動kafka服務（broker） [[email protected] kafka_2.11-0.10.2.1]# ./bin/kafka-server-start.sh config/server.properties 3.啟動kafka的producer（

kafka結合Spark-streming的直連(Direct)方式

說明：此程式使用的scala編寫在spark-stream+kafka使用的時候，有兩種連線方式一種是Receiver連線方式，一種是Direct連線方式。　　兩種連線方式簡介：　　Receiver接受固定時間間隔的資料（放在記憶體中），達到固定的時間才進行處理，效率極並且容易丟失

Spark Streaming中的Receiver方式和直連方式

Spark Streaming從Kafka中接受資料的時候有兩種方式，一種是使用Receiver的老方法，另一種是使用直連的方法 1.Receiver方式 Receiver是使用Kafka高階消費者API實現的，與所有接收器一樣，從Kafka通過Receiver接收的資料

使用sparkStreaming與Kafka直連方式WordCount,使用redis存放中間結果

1、maven的pom.xml檔案，新增jedis依賴  <dependency> <groupId>redis.clients</groupId>

Spark Streaming消費Kafka的資料進行統計

流處理平臺：這裡是第四步的實現： Spark Streaming整合Kafka採用的是Receiver-based，另一種方式Direct Approach，稍作修改就行。 package spark import org.apache.spark.SparkConf impo

kafka直連方式，使用redis儲存偏移量

使用Redis來記錄偏移量，以前用receive方式時，使用zookeeper儲存偏移量，不用自己儲存偏移量，使用直連方式可以自己儲存偏移量，更加靈活。在直連方式中，儲存偏移量可以使用zookeeper，也可以使用mysql、redis等來儲存偏移量，下面使用一

spark streaming 通過zookeeper讀取kafka上的資料

maven 依賴如下 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-c

Spark Streaming整合flume(Poll方式和Push方式)

flume作為日誌實時採集的框架，可以與SparkStreaming實時處理框架進行對接，flume實時產生資料，sparkStreaming做實時處理。 Spark Streaming對接FlumeNG有兩種方式，一種是FlumeNG將訊息Push推給Spark Streaming，還

SparkStreaming消費Kafka中的資料使用zookeeper和MySQL儲存偏移量的兩種方式

Spark讀取Kafka資料的方式有兩種，一種是receiver方式，另一種是直連方式。今天分享的SparkStreaming消費Kafka中的資料儲存偏移量的兩種方式都是基於直連方式上的話不多說直接上程式碼！第一種是使用zookeeper儲存偏移量 object Kafka

spark streaming 同時處理兩個不同kafka叢集的資料

如題，總是不那麼完美，要處理的資料在兩個不同的kafka叢集裡面，日子得過，問題也得解決，我們建立兩個DStream,連線兩個不同的kafka叢集的不同topic,然後再把這兩個DStream union在一起處理，程式碼如下： package com.king

Spark Streaming，Flink，Storm，Kafka Streams，Samza：如何選擇流處理框架

![](https://img2020.cnblogs.com/blog/1089984/202006/1089984-20200610080225004-690722209.png) 根據最新的統計顯示，僅在過去的兩年中，當今世界上90％的資料都是在新產生的，每天建立2.5萬億位元組的資料，並且隨著新裝

Dubbo直連方式

[TOC] ## 一、dubbo概述 Apache Dubbo 是一款高效能、輕量級的開源 Java RPC 框架，它提供了三大核心能力： - 面向介面的遠端方法呼叫， - 智慧容錯和負載均衡， - 服務自動註冊和發現。 Dubbo 是一個分散式服務框架，致力於提供高效能和透明化的 RPC 遠端服務呼叫

Dubbo直連方式改造

[TOC] ## 一、dubbo 服務化最佳實踐 ### 1. 分包建議將服務介面、服務模型、服務異常等均放在公共包中 ### 2. 粒度服務介面儘可能大粒度，每個服務方法應代表一個功能，而不是某功能的一個步驟，否則將面臨分散式事務問題，Dubbo 暫未提供分散式事務支援服務介面建議以業務場景

python中是否有單獨的字元型別，通過下標的方式表示字串中的字元

說明：　　在python中，沒有單獨的字元型別，一個字元呢就是一個大小為1的字串。　　並且可以通過下標的方式，表示字串中的字元。操作過程： 1.通過[ ]的方式表示字串中的第幾個字元 >>> text = 'python' >>> text[0]

Spark Streaming通過直連的方式消費Kafka中的資料

相關推薦