kafka生產者消費者API 與sparkStreaming 整合（scala版）

阿新 • • 發佈：2019-02-15

maven配置檔案

       <!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka -->
        <dependency>
            <groupId>org.apache.kafka</groupId>
            <artifactId>kafka_2.11</artifactId>
            <version>1.0.0</version>
        </dependency 
>
        <!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka-clients -->
        <dependency>
            <groupId>org.apache.kafka</groupId>
            <artifactId>kafka-clients</artifactId>
            <version>1.0.0</version>
        </dependency 
>

        <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming-kafka-0-8_2.11 -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming-kafka-0-8_2.11</artifactId>
            <version>2.1.1</version 
>
            <scope>provided</scope>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming_2.10 -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.11</artifactId>
            <version>2.1.1</version>
            <scope>provided</scope>
        </dependency>

1. kafka生產者

import java.util.Properties
import org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord}
import scala.io.Source
import scala.reflect.io.Path

class KafkaProduceMsg extends Runnable {

  private val BROKER_LIST = "slave6:9092,slave7:9092"
  private val TOPIC = "kafka"
  private val DIR = "C:\\Users\\admin\\Desktop\\kafka-data.txt"

  /**
    * 1、配置屬性
    * metadata.broker.list : kafka叢集的broker
    * serializer.class : 如何序列化傳送訊息
    * request.required.acks : 1代表需要broker接收到訊息後acknowledgment,預設是0
    * producer.type : 預設就是同步sync
    */
  private val props = new Properties()
  props.put("bootstrap.servers",BROKER_LIST)
  props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer")
  props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer")
  props.put("request.required.acks", "1")
  props.put("producer.type", "async")

  private val producer = new KafkaProducer[String,String](props)

  def run(): Unit = {
    println("開始生產訊息！！！！！！！！！！")
    while(true){
      val files = Path(this.DIR).walkFilter(p => p.isFile)
      try {
        for(file <- files){
          val reader = Source.fromFile(file.toString(),"UTF-8")
          for(line <- reader.getLines()){
            var m = 0
            while(m < 10){
              val record = new ProducerRecord[String,String](this.TOPIC,"key",line)
              m = m + 1
              println(m + "" + record)
              producer.send(record)
            }
            try{
              Thread.sleep(3000)
            }catch {
              case e : Exception => println(e)
            }
          }
        }
      }catch{
        case e : Exception => println(e)
      }
    }
  }
}

生產者執行程式：

object Msg {
  def main(args: Array[String]): Unit = {
    new Thread(new KafkaProduceMsg()).start()
  }

}

2. 消費者sparkStreaming

import kafka.serializer.StringDecoder
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * 2.spark-streaming消費資料，匹配應用層是否含有制定關鍵字，
  *   如果包含就儲存下來，不包含就丟棄
  */
object KafkaConsumer {
  def main(args: Array[String]): Unit = {
    //    建立sparksession
    val conf = new SparkConf().setAppName("Consumer")
    val ssc = new StreamingContext(conf,Seconds(5))
    //    設定中間儲存的檢查點，可以進行累計計算
//    ssc.checkpoint("hdfs://master:9000/xxx")
    //    讀取kafka資料
    val kafkaParam = Map("metadata.broker.list" -> "slave6:9092,slave7:9092")
    val topic = "kafka".split(",").toSet
    //    獲取日誌資料
    val logDStream: DStream[String] = KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](ssc,kafkaParam,topic).map(_._2)
    logDStream.print()
    ssc.start()
    ssc.awaitTermination()
    ssc.stop()
  }
}

kafka生產者消費者API 與sparkStreaming 整合（scala版）

maven配置檔案  <dependency>

框架整合——SpringMVC與MyBatis整合（超詳細）

SpringMVC與MyBatis是我們現在最流行的開發框架組合之一，這裡我來整理一下框架的整合搭建過程前言使用IDE：IntelliJ IDEA JDK：1.8 開啟IDEA，新建maven工程第一步：開啟IDEA，點選Create New Pro

WebService入門 - CXF與Spring整合（maven專案）

可參考CXF官網-使用Spring編寫服務文件：http://cxf.apache.org/docs/writing-a-service-with-spring.html 1.新增依賴

Memcached客戶端（memcached-Java-client）與 Spring整合（單伺服器）

Memcached客戶端與Spring整合，客戶端使用的是Memcached-Java-Client-release_2.6.3 1. 配置Maven  <dependency> <g

HBase--通過Java API與HBase互動（增刪改）

import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop

Hadoop與MongoDB整合（Hive篇）

1.背景公司希望使用MongoDB作為後端業務資料庫，使用Hadoop平臺作為資料平臺。最開始是先把資料從MongoDB匯出來，然後傳到HDFS，然後用Hive/MR處理。我感覺這也太麻煩了，現在不可能沒有人想到這個問題，於是就搜了一下，結果真找到一個Mon

spring-cloud與netflixEureka整合（註冊中心）

eureka 集群 uil brush enabled cor scons sta show 基礎依賴 compile(‘org.springframework.boot:spring-boot-starter-actuator‘) compile(‘org.spring

概率論與數理統計（第二版）嚴繼高版(2)

http 分享圖片概率 info 概率論第二版 mage 數理統計 nbsp 概率論與數理統計（第二版）嚴繼高版(2)

區塊鏈基礎理論與研究概況（前沿版）

內容簡介全球新一輪產業變革和科技革命持續深入，資訊科技引領世界技術競爭新高地。區塊鏈作為密碼學、分散式系統、共識機制、博弈論的集大成者，推動多領域學術研究的蓬勃發展，也為相關產業提供諸多機遇。為了總結區塊鏈基礎理論研究及概況，我們編寫了此份研究報告。其主要內容包括：區塊鏈基本概念梳理和

資料結構基礎------1.線性表之單鏈表的建立與輸出方法（Java版）

基礎知識：線性表（linear list），是其組成元素間具有線性關係的一種線性結構。線性表有 ①順序儲存結構（sequential storage structure）順序儲存結構可以簡單的理解利用為陣列的形式來進行儲存資料。 ②鏈式儲存結構（ch

軟體測試自學與充電指南（升級版）

本篇是筆者之前的軟體測試自學指南---從入門到精通（http://blog.csdn.net/xc5683/article/details/9448427）的升級版。IT行業正在迅速變化，感覺之前的有些單薄，而且是比較傳統的測試，所以增加了下面的內容。這次主要是以Web測試

paypal快速結賬支付方式整合（java版）

最近一個海外專案需要paypal支付，之前沒弄過，著實費了一番功夫，最終把paypal快速結賬整合進了專案中去，現在用文件總結下。整的時候感覺很難，各種找資料，等真正整出來後，發現也就那樣了。下面是整個程式碼： 1、說下快速結賬的整個流程， PayPal快速結賬：此

嵌入式Linux核心配置、裁剪與編譯淺析（ARM版）

/*====================*/ 9、Device Drivers ---> 9.1、Generic Driver Options ---> 9.1.1、() path to uevent helper 9.1.2、[ ] Maintain a devtmpfs fil

演算法分析與設計基礎（清華版）

Taken from "Introduction to The Design and Analysis of Algorithms" by Anany Levitin 節選自《演算法設計與分析基礎》潘彥譯蠻力法就像寶劍不是撬棍一樣，科學也很少使用蠻力。 ——Edward Lytton (183

Spring boot Mybatis 整合（註解版）

之前寫過一篇關於springboot 與 mybatis整合的博文，使用了一段時間spring-data-jpa，發現那種方式真的是太爽了，mybatis的xml的對映配置總覺得有點麻煩。介面定義和對映離散在不同的檔案中，閱讀起來不是很方便。於是，準備使用

spark HelloWorld程序（scala版）

special hide dst tproxy top targe 提取 main read 使用本地模式，不需要安裝spark，引入相關JAR包即可： <dependency> <groupId>or

基於編輯距離來判斷詞語相似度方法（scala版）

使用 ref ray 只需要 art 算法位置 spark else 詞語相似性比較，最容易想到的就是編輯距離，也叫做Levenshtein Distance算法。在Python中是有現成的模塊可以幫助做這個的，不過代碼也很簡單，我這邊就用scala實現了一版。編輯

Spark Streaming狀態管理函式（二）——updateStateByKey的使用（scala版）

updateStateByKey的使用關於updateStateByKey 注意事項示例程式碼執行結論關於updateStateByKey 1.重點：首先會以DStream中的資料進行按key做reduce操作，然

Spark Streaming狀態管理函式（三）——MapWithState的使用（scala版）

MapWithState 關於mapWithState 注意事項示例程式碼執行結論關於mapWithState 需要自己寫一個匿名函式func來實現自己想要的功能。如果有初始化的值得需要，可以使用initia

spark的JDBC連線池（Scala版）

一個Scala版的連線池，並在使用Spark Streaming進行Word Count時，把每批資料都存到mySql中 import java.sql.{Connection, DriverManager} import java.util object J

kafka生產者消費者API 與sparkStreaming 整合（scala版）

相關推薦