Spark Streaming--3 Spark 與 Kafka整合

阿新 • • 發佈：2019-01-05

引入jar包依賴

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
    <version>${spark.version}</version>
</dependency>

編寫scala

//Stream2Kafka
import kafka.serializer.StringDecoder
import org.apache.kafka.clients.consumer.ConsumerConfig
import org.apache.kafka.clients.producer.ProducerRecord
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.SparkConf
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}
import org.apache.spark.streaming.{Seconds, StreamingContext}
/**
  *
  */
object Stream2Kafka extends App {
  //建立配置物件
  val conf = new SparkConf().setAppName("kafka").setMaster("local[3]")
  //建立SparkStreaming操作物件
  val ssc = new StreamingContext(conf,Seconds(5))
  //連線Kafka就需要Topic
  //輸入的topic
  val fromTopic = "source"
  //輸出的Topic
  val toTopic = "target"
  //建立brokers的地址
  val brokers = "master:9092,slave1:9092,slave3:9092,slave2:9092"
  //Kafka消費者配置物件
  val kafkaParams = Map[String, Object](
    //用於初始化連結到叢集的地址
    ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG -> brokers,
    //Key與VALUE的序列化型別
    ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG->classOf[StringDeserializer],
    ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG->classOf[StringDeserializer],
    //用於標識這個消費者屬於哪個消費團體
    ConsumerConfig.GROUP_ID_CONFIG->"kafka",
    //如果沒有初始化偏移量或者當前的偏移量不存在任何伺服器上，可以使用這個配置屬性
    //可以使用這個配置，latest自動重置偏移量為最新的偏移量
    ConsumerConfig.AUTO_OFFSET_RESET_CONFIG->"latest",
    //如果是true，則這個消費者的偏移量會在後臺自動提交
    ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG->(false: java.lang.Boolean)
  )
  //建立DStream，連線到Kafka，返回接收到的輸入資料
  val inputStream = {
    KafkaUtils.createDirectStream[String, String](
      ssc,
      //位置策略（可用的Executor上均勻分配分割槽）
      LocationStrategies.PreferConsistent,
      //消費策略（訂閱固定的主題集合）
      ConsumerStrategies.Subscribe[String, String](Array(fromTopic), kafkaParams))
  }
  inputStream.map{record => "hehe--"+record.value}.foreachRDD { rdd =>
    //在這裡將RDD寫回Kafka,需要使用Kafka連線池
    rdd.foreachPartition { items =>
      val kafkaProxyPool = KafkaPool(brokers)
      val kafkaProxy = kafkaProxyPool.borrowObject()
      for (item <- items) {
        //使用這個連線池
        kafkaProxy.kafkaClient.send(new ProducerRecord[String, String](toTopic, item))
      }
      kafkaProxyPool.returnObject(kafkaProxy)
    }
  }
  ssc.start()
  ssc.awaitTermination()
}
//Kafka連線池
import org.apache.commons.pool2.impl.{DefaultPooledObject, GenericObjectPool}
import org.apache.commons.pool2.{BasePooledObjectFactory, PooledObject}
import org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig}
import org.apache.kafka.common.serialization.StringSerializer
//因為要將Scala的集合型別轉換成Java的
import scala.collection.JavaConversions._
class KafkaProxy(broker:String){
  val conf = Map(
    //用於初始化連結到叢集的地址
    ProducerConfig.BOOTSTRAP_SERVERS_CONFIG -> broker,
    //Key與VALUE的序列化型別
    ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG->classOf[StringSerializer],
    ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG->classOf[StringSerializer]
  )
  val kafkaClient = new KafkaProducer[String,String](conf)
}
//建立一個建立KafkaProxy的工廠
class KafkaProxyFactory(broker:String) extends  BasePooledObjectFactory[KafkaProxy]{
  //建立例項
  override def create(): KafkaProxy = new KafkaProxy(broker)
  //包裝例項
  override def wrap(t: KafkaProxy): PooledObject[KafkaProxy] = new DefaultPooledObject[KafkaProxy](t)
}
object KafkaPool {
  private var kafkaPool:GenericObjectPool[KafkaProxy]=null
  def apply(broker:String): GenericObjectPool[KafkaProxy] ={
    if(kafkaPool == null){
      this.kafkaPool = new GenericObjectPool[KafkaProxy](new KafkaProxyFactory(broker))
    }
    kafkaPool
  }
}

啟動zookeeper

zkServer.sh start

每個節點啟動kafka

kafka-server-start.sh /opt/apps/Kafka/kafka_2.11_2.0.0/config/server.properties &

建立兩個主題

[[email protected] ~]# kafka-topics.sh --create --zookeeper master:2181,slave1:2181,slave2:2181,slave3:2181,slave4:2181 --replication-factor 2 --partitions 2 --topic source
[ 
[email protected] ~]# kafka-topics.sh --create --zookeeper master:2181,slave1:2181,slave2:2181,slave3:2181,slave4:2181 --replication-factor 2 --partitions 2 --topic target

啟動producer 寫入資料到source

[[email protected] ~]# kafka-console-producer.sh --broker-list master:9092,slave1:9092,slave2:9092,slave3:9092,slave4:9092 --topic source

啟動consumer 監聽target的資料

[[email protected] ~]# kafka-console-consumer.sh --bootstrap-server master:9092,slave1:9092,slave2:9092,slave3:9092,slave4:9092 --topic target

最終的流程是：建立兩個主題，source、target，從kafka生產者輸入資料source，接著到反序列化SparkStreaming的ConsumerConfig消費，接著通過代理序列化輸出至SparkStreaming的ProducerConfig生產端，然後可以處理資料，處理完資料之後，傳送到kafka的consumer消費者監聽target，監聽到的資料進行輸出。

Spark Streaming--3 Spark 與 Kafka整合

引入jar包依賴 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.11</art

java實現spark streaming與kafka整合進行流式計算

背景：網上關於spark streaming的文章還是比較多的，可是大多數用scala實現，因我們的電商實時推薦專案以java為主，就踩了些坑，寫了java版的實現，程式碼比較意識流，輕噴，歡迎討論。流程：spark streaming從kafka讀使用者實時點選資料，過濾資

Spark-Streaming updateStateByKey用法(計算累加值)、並與kafka整合使用

說明 Spark Streaming的updateStateByKey可以DStream中的資料進行按key做reduce操作，然後對各個批次的資料進行累加。計算word count所有批次的累加值。import org.apache.log4j.{Level, Logg

spark streaming小實戰之kafka讀取與儲存

本次小實戰主要介紹一下spark streaming如何讀取kafka資料涉及理論部分在這就不多說了，自己也剛入門先說下需求待處理日誌格式為ouMrq2r_aU1mtKRTmQclGo1UzY,3251210381,2018/11/29 13:46,上海,上海,210.2.2

《深入理解Spark》之Spark與Kafka整合原理

spark和kafka整合有2中方式 1、receiver 顧名思義:就是有一個執行緒負責獲取資料，這個執行緒叫receiver執行緒解釋： 1、Spark叢集中的某個executor中有一個receiver執行緒，這個執行緒負責從kafka中獲取資料注意

Spark Streaming核心概念與編程

fyi res port 使用文件夾 most min contain 現在 1. 核心概念 StreamingContext Create StreamingContext import org.apache.spark._ import org.apache.s

Spark學習（拾）- Spark Streaming進階與案例實戰

實戰之updateStateByKey運算元的使用 updateStateByKey操作允許您在使用新資訊不斷更新狀態的同時維護任意狀態。要使用它，您需要執行兩個步驟。 1、定義狀態——狀態可以是任意資料型別。 2、定義狀態更新函式——用函式指定如何使用以前的狀態和輸入流中的新值更新

Spark學習（玖）- Spark Streaming核心概念與程式設計

文章目錄核心概念之StreamingContext 核心概念之DStream 核心概念之Input DStreams和Receivers 基本資源高階資源核心概念之Transformat

spark streaming程式因叢集kafka版本不一致造成ZkUtils類無法更新offset解決方案

問題：因為CDH叢集環境問題，我spark streaming程式的依賴就依照其版本來進行，但這就遇到一個問題，叢集spark2支援的kafka版本是0.9.0，而我們程式操作zookeeper的ZkUtils類就不相容了。解決方案：重新KafkaCluster類，

Spark Streaming：快取與持久化機制

快取與持久化機制與RDD類似，Spark Streaming也可以讓開發人員手動控制，將資料流中的資料持久化到記憶體中。對DStream呼叫persist()方法，就可以讓Spark Stre

spark-streaming 程式設計(三)連線kafka消費資料

spark-streaming支援kafka消費，有以下方式：我實驗的版本是kafka0.10，試驗的是spark-streaming-kafka-0.8的接入方式。另外，spark-streaming-kafka-0.10的分支並沒有研究。 spar

關於Spark Streaming 如何進行commit kafka的offset

收到就提交提交方式記為 X：接收到資料就會直接commit，假如某個batch失敗，重啟job，則消費會從上次commit的offset消費，所以會導致失敗的那個batch的部分資料丟失。 batch結束才commit的方式記為 Y: 會有訊息重複消費的問題。如果

spark streaming 通過zookeeper讀取kafka上的資料

maven 依賴如下 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-c

Elasticsearch 與 Kafka 整合剖析

簡單 prepare 3.2 ger 郵件核心 pri servers 技術 1.概述　　目前，隨著大數據的浪潮，Kafka 被越來越多的企業所認可，如今的Kafka已發展到0.10.x，其優秀的特性也帶給我們解決實際業務的方案。對於數據分流來說，既可以分流到離線存儲

Spark2.2（三十三）：Spark Streaming和Spark Structured Streaming更新broadcast總結

背景：需要在spark2.2.0更新broadcast中的內容，網上也搜尋了不少文章，都在講解spark streaming中如何更新，但沒有spark structured streaming更新broadcast的用法，於是就這幾天進行了反覆測試。經過了一下兩個測試：：Spark Streaming更

flume讀取binlog與kafka整合

一、現將kafka調通檢視zookeeper的topic cd /usr/software/zookeeper/zookeeper/bin ./zkCli.sh start ls /brokers/topics 先來說一下，刪除kafka

hue(3):Hue與Hive整合

1.修改hive-site.xml <property> <name>hive.server2.thrift.bind.host</name> <value>hadoop</value> </property> &l

Flume與Kafka整合案例詳解

環境配置名稱版本下載地址 Centos 7.0 64x 百度 Zookeeper 3.4.5 Flume 1.6.0 Kafka 2.1.0 配置Flu

Storm Kafka Integration (0.10.x+)官方文件翻譯：storm與kafka整合

Storm Kafka Integration (0.10.x+) 相容性 Apache Kafka版本0.10以上向kafka寫資料作為拓撲的一部分你可以建立一個org.apache.storm.kafka.bolt.KafkaBolt的例項，

大資料———Flume與Kafka整合

set to a unique integer for each broker. broker.id=0 ############################# Socket Server Settings ############################# # The address the

Spark Streaming--3 Spark 與 Kafka整合

相關推薦