SparkStreaming讀取kafka資料進行反序列化以及mapPartition優化例項

阿新 • • 發佈：2019-02-08

val monitorWrappedMessage1 =  KafkaUtils.createStream[String,  Array[Byte], StringDecoder, DefaultDecoder](
      ssc, kafkaParams, topicMap, StorageLevel.MEMORY_AND_DISK_SER_2).mapPartitions( partitions => {
      val zookeeperAvroSchemaPersister = new ZookeeperAvroSchemaPersister
      zookeeperAvroSchemaPersister.setServers("10.194.1.2:2181")
      zookeeperAvroSchemaPersister.setConnectionTimeout(10000)
      zookeeperAvroSchemaPersister.init()
      val avroMessageDecoder = new AvroMessageDecoder
      avroMessageDecoder.setAvroMessageEntityPackageToScan("com.networkbench.newlens.datacollector.backend.aggregate.wrappedmessage.own")
      avroMessageDecoder.setAvroSchemaPersister(zookeeperAvroSchemaPersister)
      val mWMessage = partitions.map(line => avroMessageDecoder.decode(line._2).asInstanceOf[MonitorWrappedMessage]).toList
      mWMessage.toIterator
    })

該段程式碼涉及到   反序列化與 mapPartition優化

===============================mapPartition優化案例===================================

val newRd = myRdd.mapPartitions(partition => {
  val connection = new DbConnection /*creates a db connection per partition*/


  val newPartition = partition.map(record => {
    readMatchingFromDB(record, connection)
  }).toList // consumes the iterator, thus calls readMatchingFromDB


  connection.close() // close dbconnection here
  newPartition.iterator // create a new iterator
})

參考文獻：

http://www.hongyusu.com/amt/spark-streaming-kafka-avro-and-registry.html
 https://github.com/cpbaranwal/Avro-SparkStreaming-Kafka
 https://community.hortonworks.com/articles/33275/receiving-avro-messages-through-kafka-in-a-spark-s.html

附程式碼：

package com.sparkdeveloper.receiver
 
import java.io.ByteArrayOutputStream
import java.util.HashMap
import org.apache.avro.SchemaBuilder
import org.apache.avro.io.EncoderFactory
import org.apache.avro.specific.SpecificDatumWriter
import org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, ProducerRecord}
import org.apache.log4j.{Level, Logger}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.serializer.KryoSerializer
import kafka.serializer._
import org.apache.spark.streaming.{Seconds, StreamingContext}
import java.io.{ByteArrayOutputStream, File, IOException}
import org.apache.spark.streaming.{Seconds, StreamingContext, Time}
import org.apache.avro.file.{DataFileReader, DataFileWriter}
import org.apache.avro.generic.{GenericDatumReader, GenericDatumWriter, GenericRecord, GenericRecordBuilder}
import org.apache.avro.io.EncoderFactory
import org.apache.avro.io._
import org.apache.avro.SchemaBuilder
import org.apache.avro.Schema
import org.apache.avro._
import org.apache.spark.sql.SQLContext
import org.apache.spark.streaming.kafka._
import org.apache.spark.storage.StorageLevel
import org.apache.spark.rdd.RDD
import com.databricks.spark.avro._
import com.fasterxml.jackson.module.scala.DefaultScalaModule
import com.fasterxml.jackson.module.scala.experimental.ScalaObjectMapper
import com.fasterxml.jackson.databind.ObjectMapper
import com.fasterxml.jackson.databind.DeserializationFeature
 
case class HashtagEntities(text: String, start: Double, end: Double)
 
case class User(id: Double, name: String,
                screenName: String, location: String, description: String, url: String, statusesCount: Double)
 
case class Tweet(text: String, createdAt: String, lang: String, source: String, expandedURL: String,
                 url: String, screenName: String, description: String, name: String, retweetCount: Double, timestamp: Long,
                 favoriteCount: Double, user: Option[User], hashtags: HashtagEntities)
 
 
/**
  * Created by timothyspann
  */
object KafkaConsumer {
  val tweetSchema = SchemaBuilder
    .record("tweet")
    .fields
    .name("tweet").`type`().stringType().noDefault()
    .name("timestamp").`type`().longType().noDefault()
    .endRecord
 
  def main(args: Array[String]) {
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
    Logger.getLogger("org.apache.spark.storage.BlockManager").setLevel(Level.ERROR)
 
    val logger: Logger = Logger.getLogger("com.sparkdeveloper.receiver.KafkaConsumer")
    val sparkConf = new SparkConf().setAppName("Avro to Kafka Consumer")
 
    sparkConf.set("spark.cores.max", "24") // For my sandbox
    sparkConf.set("spark.serializer", classOf[KryoSerializer].getName)
    sparkConf.set("spark.sql.tungsten.enabled", "true")
    sparkConf.set("spark.eventLog.enabled", "true")
    sparkConf.set("spark.app.id", "KafkaConsumer") // want to know your app in the UI
    sparkConf.set("spark.io.compression.codec", "snappy")
    sparkConf.set("spark.rdd.compress", "true")
    sparkConf.set("spark.streaming.backpressure.enabled", "true")
 
    sparkConf.set("spark.sql.parquet.compression.codec", "snappy")
    sparkConf.set("spark.sql.parquet.mergeSchema", "true")
    sparkConf.set("spark.sql.parquet.binaryAsString", "true")
 
    val sc = new SparkContext(sparkConf)
    sc.hadoopConfiguration.set("parquet.enable.summary-metadata", "false")
    val ssc = new StreamingContext(sc, Seconds(2))
 
    try {
      val kafkaConf = Map(
        "metadata.broker.list" -> "sandbox.hortonworks.com:6667",
        "zookeeper.connect" -> "sandbox.hortonworks.com:2181", // Default zookeeper location
        "group.id" -> "KafkaConsumer",
        "zookeeper.connection.timeout.ms" -> "1000")
 
      val topicMaps = Map("meetup" -> 1)
 
      // Create a new stream which can decode byte arrays.
      val tweets = KafkaUtils.createStream[String, Array[Byte], DefaultDecoder, DefaultDecoder]
(ssc, kafkaConf,topicMaps, StorageLevel.MEMORY_ONLY_SER)
 
      try {
        tweets.foreachRDD((rdd, time) => {
          if (rdd != null) {
            try {
              val sqlContext = new SQLContext(sc)
              import sqlContext.implicits._
 
              val rdd2 = rdd.map { case (k, v) => parseAVROToString(v) }
 
              try {
                val result = rdd2.mapPartitions(records => {
                  val mapper = new ObjectMapper()
                  mapper.configure(DeserializationFeature.FAIL_ON_UNKNOWN_PROPERTIES, false)
                  mapper.registerModule(DefaultScalaModule)
                  records.flatMap(record => {
                    try {
                      Some(mapper.readValue(record, classOf[Tweet]))
                    } catch {
                      case e: Exception => None;
                    }
                  })
                }, true)
 
                val df1 = result.toDF()
                logger.error("Registered tweets: " + df1.count())
                df1.registerTempTable("tweets")

// To show how easy it is to write multiple formats
                df1.write.format("orc").mode(org.apache.spark.sql.SaveMode.Append).orc("orcresults")
                df1.write.format("avro").mode(org.apache.spark.sql.SaveMode.Append).avro("avroresults")
                df1.write.format("parquet").mode(org.apache.spark.sql.SaveMode.Append).parquet("parquetresults")
               df1.write.format("json").mode(org.apache.spark.sql.SaveMode.Append).json("jsonresults")
              } catch {
                case e: Exception => None;
              }
            }
            catch {
              case e: Exception => None;
            }
          }
        })
      } catch {
        case e: Exception =>
          println("Writing files after job. Exception:" + e.getMessage);
          e.printStackTrace();
      }
    } catch {
      case e: Exception =>
        println("Kafka Stream. Writing files after job. Exception:" + e.getMessage);
        e.printStackTrace();
    }
    ssc.start()
    ssc.awaitTermination()
  }
 
  def parseAVROToString(rawTweet: Array[Byte]): String = {
    try {
      if (rawTweet.isEmpty) {
        println("Rejected Tweet")
        "Empty"
      }
      else {
        deserializeTwitter(rawTweet).get("tweet").toString
      }
    } catch {
      case e: Exception =>
        println("Exception:" + e.getMessage);
        "Empty"
    }
  }
 
  def deserializeTwitter(tweet: Array[Byte]): GenericRecord = {
    try {
      val reader = new GenericDatumReader[GenericRecord](tweetSchema)
      val decoder = DecoderFactory.get.binaryDecoder(tweet, null)
      reader.read(null, decoder)
    } catch {
        case e: Exception => None;
        null;
      }
    }
  }
// scalastyle:on println
 
build.sbt
 
name := "KafkaConsumer"
version := "1.0"
scalaVersion := "2.10.6"
jarName in assembly := "kafkaconsumer.jar"
libraryDependencies  += "org.apache.spark" % "spark-core_2.10" % "1.6.0" % "provided"
libraryDependencies  += "org.apache.spark" % "spark-sql_2.10" % "1.6.0" % "provided"
libraryDependencies  += "org.apache.spark" % "spark-streaming_2.10" % "1.6.0" % "provided"
libraryDependencies  += "com.databricks" %% "spark-avro" % "2.0.1"
libraryDependencies  += "org.apache.avro" % "avro" % "1.7.6" % "provided"
libraryDependencies  += "org.apache.spark" % "spark-streaming-kafka_2.10" % "1.6.0"
libraryDependencies  += "org.codehaus.jackson" % "jackson-mapper-asl" % "1.9.13"
libraryDependencies  += "com.google.code.gson" % "gson" % "2.3"
 
mergeStrategy in assembly := {
  case m if m.toLowerCase.endsWith("manifest.mf")          => MergeStrategy.discard
  case m if m.toLowerCase.matches("meta-inf.*\\.sf$")      => MergeStrategy.discard
  case "log4j.properties"                                  => MergeStrategy.discard
  case m if m.toLowerCase.startsWith("meta-inf/services/") => MergeStrategy.filterDistinctLines
  case "reference.conf"                                    => MergeStrategy.concat
  case _                                                  => MergeStrategy.first
}

SparkStreaming讀取kafka資料進行反序列化以及mapPartition優化例項

val monitorWrappedMessage1 = KafkaUtils.createStream[String, Array[Byte], StringDecoder, DefaultDecoder]( ssc, kafkaParams, topic

【C#】解決進行反序列化時出錯:。InnerException 訊息是“反序列化物件屬於型別 System.String 時出現錯誤。讀取 XML 資料時，超出最大字串內容長度配額 (8192)。

解決：.NET進行反序列化時出錯:。InnerException 訊息是“反序列化物件屬於型別 System.String 時出現錯誤。讀取 XML 資料時，超出最大字串內容長度配額 (8192)

sparkStreaming讀取kafka資料的2種方式

方式一 Receiver 使用Kafka的高層次Consumer API來實現。receiver從Kafka中獲取的資料都儲存在Spark Executor的記憶體中，然後Spa

C#對操作“WebserviceFun”的回覆訊息正文進行反序列化時出錯

伺服器無法處理請求。 ---> 對操作“WebserviceFun”的回覆訊息正文進行反序列化時出錯。 ---> XML 文件(2, 12344)中有錯誤。 ---> 讀取 XML 資料時，超出最大字串內容長度配額 (8192)。通過更改在建立 XML 讀取

格式化程式嘗試對訊息反序列化時引發異常: 嘗試對引數 http://tempuri.org/ 進行反序列化時出錯: GetLzdtArticleResult。InnerException 訊息是“反序

當遇到這個錯誤的時候鬱悶了好長時間報錯是字串長度過大可是修改了MaxStringContentLength”屬性的值卻不起作用最後才發現還是因為配置檔案配置的問題在服務端格式化程式嘗試對訊息反序列化時引發異常: 嘗試對引數 http://tempuri.org/ 進行反

呼叫webservice時提示對操作的回覆訊息正文進行反序列化時出錯

主要原因webservice返回值的長度超過readerQuotas中的了maxStringContentLength值，造成返回值截斷，不完整，反序列化時出錯。 <readerQuotas maxDepth="32" maxStringContentLength

【Loadrunner】 java vuser 採用cmd方式呼叫python檔案，執行zeromq請求和資料protobuf反序列化

背景：由於第一次接觸zeromq，對其瞭解甚少，於是度娘對其原理了解一番後，就開始了接下來實踐“坑”中，首先在LR中，對於用socekt、java、c那種方式來實現，通過抓包對比，以及socekt和c語言可實現，但複雜度有點”呵呵“，而用java開發的zero

[Jackson] 使用ObjectMapper對含有任意key的JSON進行反序列化

使用ObjectMapper對含有任意key的JSON進行反序列化在呼叫某個RESTful API後，返回的JSON字串中含有沒有預先定義的key，和結構固定的JSON相比，它需要一些額外的操作。對於結構固定的JSON，使用ObjectMapper結合某

C#對操作“××”的回覆訊息正文進行反序列化時出錯

主要原因webservice返回值的長度超過readerQuotas中的了maxStringContentLength值，造成返回值截斷，不完整，反序列化時出錯。解決方案，在appconfig中，

Unity 基於excel2json批處理讀取Excel表並反序列化

excel2json是一款將Excel表格檔案快速生成json和C#資料類的高效外掛，詳情瞭解如下： https://neil3d.github.io/coding/excel2json.html 該外掛有兩種模式，分別是命令列和影象介面；當然了，為了更方便愉快的進行大規模轉換，可以寫兩個批處理檔案來執行：

C#序列化與反序列化以及深拷貝淺拷貝

基於二進位制資料流的序列化和反序列化 /// <summary> /// 序列化 /// </summary> /// <typeparam name="T"></typeparam>

從原始碼中學習設計模式系列——單例模式序/反序列化以及反射攻擊的問題（二）

一、前言這篇文章是學習單例模式的第二篇，之前的文章一下子就給出來看起來很高大上的實現方法，但是這種模式還是存在漏洞的，具體有什麼問題，大家可以停頓一會兒，思考一下。好了，不賣關子了，下面我們來看看每種單例模式存在的問題以及解決辦法。二、每種Singleton 模式的演進模式一

0016-Avro序列化&反序列化和Spark讀取Avro資料

溫馨提示：要看高清無碼套圖，請使用手機開啟並單擊圖片放大檢視。 1.簡介本篇文章主要講如何使用java生成Avro格式資料以及如何通過spark將Avro資料檔案轉換成DataSet和DataFrame進行操作。 1.1Apache Arvo是什麼？ Apache Avro 是一個數據序列

如何：對 JSON 資料進行序列化和反序列化

JSON（JavaScript 物件符號）是一種高效的資料編碼格式，可用於在客戶端瀏覽器和支援 AJAX 的 Web 服務之間快速交換少量資料。本主題演示如何使用 DataContractJsonSerializer 將 .NET 型別物件序列化為 JSON 編碼資料，然

.NET中JSON資料進行序列化和反序列化

可以使用DataContractJsonSerializer類將型別例項序列化為JSON字串，並將JSON字串反序列化為型別例項。 DataContractJsonSerializer在System.Runtime.Serialization.Json名稱空間下，.NET F

資料byte形式備份儲存到本地檔案，反序列化讀取出資料恢復

前提：需要備份的資料由介面 object轉換成byte[]，備份儲存到本地檔案；選擇本地檔案，取得資料 byte[]轉換成object，用於資料恢復。步驟如下： 1.把物件（資料）list ( object ) 序列化並返回相應的位元組byte[] pub

springboot學習（三）————使用HttpMessageConverter進行http序列化和反序列化

http 同時服務基本上 err cat rod nio decode 以下內容，如有問題，煩請指出，謝謝！對象的序列化/反序列化大家應該都比較熟悉：序列化就是將object轉化為可以傳輸的二進制，反序列化就是將二進制轉化為程序內部的對象。序列化/反序列化主要體現在

關於metaspolit中進行JAVA反序列化滲透RMI的原理分析

resp format shel git led 技術文件 error: return 一、背景：這裏需要對java反序列化有點了解，在這裏得推廣下自己的博客嘛，雖然寫的不好，廣告還是要做的。原諒我： 1、java反序列化漏洞原理研習 2、java反序列化漏洞的檢測二

5. 通過PHP反序列化進行遠程代碼執行

ror 資料 sset 相同 var long abstract 應該打破通過PHP反序列化進行遠程代碼執行 0×00 前言在NotSoSecure，我們每日都會進行滲透測試或代碼審查，不過最近我們遇到了一段有趣的PHP代碼，它可能會導致遠程代碼執行（RCE）漏洞

Kafka 消息的序列化與反序列化（二）

data string next() com pid tor final AR exce 自定義反序列化類：對於自定義的avro schema結構，需要有自定義的類在consumer時反序列化，反序列化類實例在consumer構造的時候通過參數傳入 public cl

SparkStreaming讀取kafka資料進行反序列化以及mapPartition優化例項

相關推薦