spark streaming程式因叢集kafka版本不一致造成ZkUtils類無法更新offset解決方案

阿新 • • 發佈：2019-01-04

問題：

因為CDH叢集環境問題，我spark streaming程式的依賴就依照其版本來進行，但這就遇到一個問題，叢集spark2支援的kafka版本是0.9.0，而我們程式操作zookeeper的ZkUtils類就不相容了。

解決方案：

重新KafkaCluster類，相容叢集版本。

原程式單個topic的zk更新offset的方法：

val stream = createCustomDirectKafkaStream(ssc,kafkaParams,"advertidshadoop161v14taiji.cdn.ifengidc.com","/kafka", topics)

/*
   * createDirectStream() method overloaded
   */
  def createCustomDirectKafkaStream(ssc: StreamingContext, kafkaParams: Map[String, String], zkHosts: String
                                    , zkPath: String, topics: Set[String]): InputDStream[(String, String)] = {
    val topic = topics.last //TODO only for single kafka topic right now
    val zkClient = new ZkClient(zkHosts, 30000, 30000)
    val storedOffsets = readOffsets(zkClient,zkHosts, zkPath, topic)
    val kafkaStream = storedOffsets match {
      case None => // start from the latest offsets
        KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics)
      case Some(fromOffsets) => // start from previously saved offsets
        val messageHandler = (mmd: MessageAndMetadata[String, String]) => (mmd.key, mmd.message)
        KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder
          , (String, String)](ssc, kafkaParams, fromOffsets, messageHandler)
    }
    // save the offsets
    kafkaStream.foreachRDD(rdd => saveOffsets(zkClient,zkHosts, zkPath, rdd))
    kafkaStream
  }

  /*
   * Read the previously saved offsets from Zookeeper
   */
  private def readOffsets(zkClient: ZkClient,zkHosts:String, zkPath: String, topic: String):
  Option[Map[TopicAndPartition, Long]] = {
    logger.info("Reading offsets from Zookeeper")
    val stopwatch = new Stopwatch()
    val (offsetsRangesStrOpt, _) = ZkUtils.readDataMaybeNull(zkClient, zkPath)
    offsetsRangesStrOpt match {
      case Some(offsetsRangesStr) =>
        logger.info(s"Read offset ranges: ${offsetsRangesStr}")
        val offsets = offsetsRangesStr.split(",")
          .map(s => s.split(":"))
          .map { case Array(partitionStr, offsetStr) => (TopicAndPartition(topic, partitionStr.toInt) -> offsetStr.toLong) }
          .toMap
        logger.info("Done reading offsets from Zookeeper. Took " + stopwatch)
        Some(offsets)
      case None =>
        logger.info("No offsets found in Zookeeper. Took " + stopwatch)
        None
    }
  }

  private def saveOffsets(zkClient: ZkClient,zkHosts:String, zkPath: String, rdd: RDD[_]): Unit = {
    logger.info("Saving offsets to Zookeeper")
    val stopwatch = new Stopwatch()
    val offsetsRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
    offsetsRanges.foreach(offsetRange => logger.debug(s"Using ${offsetRange}"))
    val offsetsRangesStr = offsetsRanges.map(offsetRange => s"${offsetRange.partition}:${offsetRange.fromOffset}")
      .mkString(",")
    logger.info("Writing offsets to Zookeeper zkClient="+zkClient+"  zkHosts="+zkHosts+"zkPath="+zkPath+"  offsetsRangesStr:"+ offsetsRangesStr)
    ZkUtils.updatePersistentPath(zkClient, zkPath, offsetsRangesStr)
    logger.info("Done updating offsets in Zookeeper. Took " + stopwatch)
  }

  class Stopwatch {
    private val start = System.currentTimeMillis()
    override def toString() = (System.currentTimeMillis() - start) + " ms"
  }

重寫方法操作zk：

參考的github專案：https://github.com/xlturing/spark-journey/tree/master/SparkStreamingKafka

spark streaming程式因叢集kafka版本不一致造成ZkUtils類無法更新offset解決方案

問題：因為CDH叢集環境問題，我spark streaming程式的依賴就依照其版本來進行，但這就遇到一個問題，叢集spark2支援的kafka版本是0.9.0，而我們程式操作zookeeper的ZkUtils類就不相容了。解決方案：重新KafkaCluster類，

【微信小程式常見問題】view標籤設定背景圖片手機無法預覽解決方案一

操作步驟： 1、將頁面放置於專案根目錄下，編寫頁面結構程式碼，如下圖 2、手機預覽除錯效果 ☛在使用樣式設定背景圖片過程中有遇到任何問題或者不明白的地方，歡迎新增我的微信進行諮詢，感謝您的支援！微

讓 Spark Streaming 程式在 YARN 叢集上長時間執行（二）—— 日誌、監控、Metrics

前段時間看到了外國朋友寫的一篇文章，覺得還不錯，於是就把他翻譯一下，供大家參考和學習。如果沒看過第一篇文章，建議先去看一下上一篇文章哈，這裡是接著上一篇文章來寫的哈~ 日誌訪問 Spark 應用程式日誌的最簡單方法是配置 Log4j 控

spark streaming 程式在linux執行

● 將程式碼打成jar包上傳至linux package com.ws.saprk import org.apache.spark.streaming.dstream.DStream import org.apache.spark.streaming.{Seconds, Streamin

Spark學習（拾叄）- Spark Streaming整合Flume&Kafka

文章目錄處理流程畫圖剖析日誌產生器開發並結合log4j完成日誌的輸出使用Flume採集Log4j產生的日誌使用KafkaSInk將Flume收集到的資料輸出到Kafka Spark Streaming消費Kafka的

關於VMware問題：無法獲得 VMCI 驅動程式的版本: 控制代碼無效。驅動程式“vmci.sys”的版本不正確......

問題解決根據配置檔案路徑找到對應的.vmx檔案：用編輯器開啟，找到vmci0.present = “TRUE”一項：將該項修改為：vmci0.present = “FALSE”

spark-streaming 程式設計(三)連線kafka消費資料

spark-streaming支援kafka消費，有以下方式：我實驗的版本是kafka0.10，試驗的是spark-streaming-kafka-0.8的接入方式。另外，spark-streaming-kafka-0.10的分支並沒有研究。 spar

kafka版本不匹配問題

最近開發spark+kafka專案但是卻遇到了很多的坑，比如 Exception in thread "main" java.lang.ClassCastException: kafka.cluster.BrokerEndPoint cannot be c

spark streaming小實戰之kafka讀取與儲存

本次小實戰主要介紹一下spark streaming如何讀取kafka資料涉及理論部分在這就不多說了，自己也剛入門先說下需求待處理日誌格式為ouMrq2r_aU1mtKRTmQclGo1UzY,3251210381,2018/11/29 13:46,上海,上海,210.2.2

關於Spark Streaming 如何進行commit kafka的offset

收到就提交提交方式記為 X：接收到資料就會直接commit，假如某個batch失敗，重啟job，則消費會從上次commit的offset消費，所以會導致失敗的那個batch的部分資料丟失。 batch結束才commit的方式記為 Y: 會有訊息重複消費的問題。如果

如何在idea裡面直接執行spark streaming程式

在windows環境下，雖然控制檯報了一大堆錯誤，但是spark streaming還是按照它的邏輯跑著，也能得到正確的結果，並且能夠打斷點除錯！！！由於報了一大坨的錯誤在控制檯，導致我想看到的資訊老是被刷屏出去，於是把程式碼放進linux的idea中去跑，發現strea

spark streaming 通過zookeeper讀取kafka上的資料

maven 依賴如下 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-c

gitlab遷移版本不一致問題

gitlab 遷移原服務器：bitnami版本gitlab版本 8.14.3目標服務器：源安裝gitlab版本：9.1.1備份方法：原機器無gitlab-rake命令切換到git用戶，執行bundle命令，進行備份$/opt/bitnami/apps/gitlab/htdocs $bundle exec b

javac與java版本不一致

bin 文章 target 變量 runner dsp load adr tar 項目測試時遇到該問題，因為loadRunner不支持jdk1.7，但運行java腳本時提示jdk版本是1.7，實際的JAVA_HOME設置為1.6。運行javac -version與java

Newtonsoft.Json 版本不一致導致錯誤

gre newton code depend binding ken redirect 不一致 -c 可以在配置文件添加這部分,其他版本的不一致,也可使用這種方式解決. <runtime> <assemblyBinding xmlns="ur

git 解決相同文件版本不一致，提交失敗

手動 -1 解決本地倉庫不一致指令 cnblogs 修改 ima 這裏我寫了關鍵的步驟。準備工作（克隆倉庫，add，commit）等等就不列舉了目前本地倉庫和遠程倉庫的README.md如下遠程倉庫本地倉庫在經過git push 和git

jdk 版本不一致導致的錯誤

sdn res myeclipse pan 問題 get target 搜索文件導入平時做項目時難免會從git，svn下載代碼或者把別人的項目文件導入到自己的MyEclipse中進行操作，因此會遇到很多問題，常見的有一種是使用的jdk版本不一致造成的報錯，錯誤案例：

android studio 開發中啟動android項目報錯sdk版本不一致解決方案

技術分享發現依賴 adl 目的 clas studio ima 需要安卓項目開發中新建項目後再run‘的時候發現報錯com.android.support:appcompat-v7依賴報錯查看下build.gredle所配置的參數：打開項目的bui

gitlab遷移遇到的版本不一致和無法導入問題

gitlab 遷移這個時候需要卸載掉當前服務器安裝的gitlab版本，並下載備份時的gitlab版本並重新安裝(清華的tuna項目有所有的gitlab版本備份，下載地址:https://mirrors.tuna.tsinghua.edu.cn/gitlab-ce/yum/)這裏需要根據當前的操作系統

解決phpinfo 和php -v版本不一致的問題

mage pos html src www post log .html 版本解決方法:參考http://www.php.cn/php-weizijiaocheng-377168.html 解決phpinfo 和php -v版本不一致的問題

spark streaming程式因叢集kafka版本不一致造成ZkUtils類無法更新offset解決方案

問題：

解決方案：

相關推薦