kafka（六）：與spark streaming對接，spark streaming接收kafka資料來源

阿新 • • 發佈：2018-11-08

1.功能實現

spark streaming從kafka接收資料，有兩種方式，receiver和direct兩種方式。

2.pom依賴

針對kafka_2.10-0.8.2.1版本

        <!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka -->
        <dependency>
           <groupId>org.apache.kafka</groupId>
           <artifactId>kafka_2.11</artifactId>
           <version>0.8.2.1</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming-kafka-0-8_2.11</artifactId>
            <version>2.1.0</version>
        </dependency>

3.scala程式碼

（1）receiver方式

package stream

import kafka.serializer.StringDecoder
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.dstream.ReceiverInputDStream
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}
//import org.apache.spark.streaming.Kafka.ka

/**
  * 
  */
object UseReceiveKafkaStreaming08 extends App{
  val conf = new SparkConf()
    .setMaster("local[*]")
    .setAppName("UseReceiveKafkaStreaming")
    .set("spark.streaming.blockInterval","1s")
  val sc = SparkContext.getOrCreate(conf)
  //  val sc = SparkUtil.createSparkContext(true,"StreamingWC")

  val ssc = new StreamingContext(sc,Seconds(10))

  //獲取資料來源
  /**
    * s
   */
  val zkQuorum="bigdata.ibeifeng.com:2181/kafka08"
  val topics=Map[String,Int]("beifeng1"-> 5)
  val groupId="sparkstreaming"


    //API1：
    val kafkaDStream=KafkaUtils
    .createStream(ssc,zkQuorum,groupId,topics,StorageLevel.MEMORY_AND_DISK_SER_2)
    .map(word=>(word._2,1))
    .reduceByKey(_ + _)

  //===============================上面是API 1已經被驗證！=============================

  

  kafkaDStream.print()
  ssc.start()
  ssc.awaitTermination()


}

（2）direct方式

package stream

import kafka.serializer.StringDecoder
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.dstream.ReceiverInputDStream
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}
//import org.apache.spark.streaming.Kafka.ka

/**
  * Created by Administrator on 2018/8/5.
  */
object UseReceiveKafkaStreaming08 extends App{
  val conf = new SparkConf()
    .setMaster("local[*]")
    .setAppName("UseReceiveKafkaStreaming")
    .set("spark.streaming.blockInterval","1s")
  val sc = SparkContext.getOrCreate(conf)
  //  val sc = SparkUtil.createSparkContext(true,"StreamingWC")

  val ssc = new StreamingContext(sc,Seconds(10))

  //獲取資料來源
  /**
    * s
   */
  val zkQuorum="bigdata.ibeifeng.com:2181/kafka08"
  val topics=Map[String,Int]("beifeng1"-> 5)
  val groupId="sparkstreaming"

  //===============================下面是API 2=============================
  /**
    *   def createStream[K: ClassTag, V: ClassTag, U <: Decoder[_]: ClassTag, T <: Decoder[_]: ClassTag](
      ssc: StreamingContext,
      kafkaParams: Map[String, String],
      topics: Map[String, Int],
      storageLevel: StorageLevel
    ): ReceiverInputDStream[(K, V)] = {
    val walEnabled = WriteAheadLogUtils.enableReceiverLog(ssc.conf)
    new KafkaInputDStream[K, V, U, T](ssc, kafkaParams, topics, walEnabled, storageLevel)
  }
    */
  val kafkaParams: Map[String, String] = Map[String,String](
    "zookeeper.connect" -> zkQuorum, "group.id" -> groupId,
    "zookeeper.connection.timeout.ms" -> "10000",
    //largest
    "auto.offset.reset" -> "smallest")
  //API2:
  val kafkaDStream = KafkaUtils.createStream[String,String,
    StringDecoder,StringDecoder](ssc,kafkaParams,topics,StorageLevel.MEMORY_AND_DISK)
    .flatMap(line => line._2.split(" "))
    .map(word => (word,1))
    .reduceByKey(_ + _)

  kafkaDStream.print()
  ssc.start()
  ssc.awaitTermination()
  //===============================上面是API 2已經被驗證！
}

kafka（六）：與spark streaming對接，spark streaming接收kafka資料來源

1.功能實現 spark streaming從kafka接收資料，有兩種方式，receiver和direct兩種方式。 2.pom依賴針對kafka_2.10-0.8.2.1版本 <!-- https

（六）java與redis高可用，java連線哨兵sentinel原理

先來看下java連線redis主從結構圖： redis主從需要在java中指定讀和寫redis源，而且是固定的，當主節點宕機之後，整個redis將不能使用，有明顯的單點問題。使用sentinel哨兵之後為： Senti

前端進擊的巨人（六）：知否知否，須知this

有偏開頭綁定規則 com 數字操作上下 bool git 常見this的誤解指向函數自身（源於this英文意思的誤解）指向函數的詞法作用域（部分情況） this的應用環境全局環境無論是否在嚴格模式下，全局執行環境中（任何函數體外部）this都指向全局

Spark（六）：SparkSQLAndDataFrames對結構化資料集與非結構化資料的處理

Spark（六）：SparkSQLAndDataFrames對結構化資料集與非結構化資料的處理如上轉載的這篇文章寫得不錯！！！一：簡單瞭解SparkSQL。 Spark SQL 是結構化的資料處理一個Spark模組。與基本的Spark RDD API不同，Spark S

深入理解Spark 2.1 Core （六）：Standalone模式執行的原理與原始碼分析

我們講到了如何啟動Master和Worker，還講到了如何回收資源。但是，我們沒有將AppClient是如何啟動的，其實它們的啟動也涉及到了資源是如何排程的。這篇博文，我們就來講一下AppClient的啟動和邏輯與物理上的資源排程。啟動AppClient 呼叫棧如下： S

PHP全棧開發（六）：PHP與HTML頁面交互

超級後端之前而在 col foreach char type 當我之前我們在HTML表單學習這篇文章裏面創建了一個HTML頁面下的表單。這個表單是用戶用來輸入數據的具體代碼如下 <!DOCTYPE html> <html> <he

spring cloud: Hystrix（六）：feign的註解@FeignClient：fallbackFactory（類似於斷容器）與fallback方法

fallbackFactory（類似於斷容器）與fallback方法 feign的註解@FeignClient：fallbackFactory與fallback方法不能同時使用，這個兩個方法其實都類似於Hystrix的功能，當網路不通時返回預設的配置資料. fallback方法的使用：在入口檔案開

python3入門與實踐（六）：函數語言程式設計

匿名函式 lambda # 1.parameter_list 引數列表 # 2.expression 函式體，只能是有一些簡單的，注意不是程式碼塊，比如不能寫賦值語句 # 3.不需要return lambda parameter_list: expression 複製程式碼 def add(x,y):

【翻譯】CodeMix使用教程（六）：任務與tasks.json

CodeMix中的任務與tasks.json 工具（如編譯器，連結器和構建系統）用於自動化構建，執行測試和部署等過程。雖然這些工具通常從IDE外部的命令列執行，但在Tasks支援下，可以在IDE中執行這些程序。對於執行構建和驗證的工具，這些工具報告的問題由CodeMix選取並顯示在IDE中

javascript資料結構與演算法筆記（六）：雙向連結串列

javascript資料結構與演算法筆記（六）：雙向連結串列一：簡介二：ES6版DoublyLinkedList類一：簡介雙向連結串列和普通連結串列的區別在於，在連結串列中，一個節點只有鏈向下一個節點的連結，而

深入JavaScript系列（六）：原型與原型鏈

說到JavaScript的原型和原型鏈，相關文章已有不少，但是大都晦澀難懂。本文將換一個角度出發，先理解原型和原型鏈是什麼，有什麼作用，再去分析那些令人頭疼的關係。一、引用型別皆為物件原型和原型鏈都是來源於物件而服務於物件的概念，所以我們要先明確一點： JavaScript中一切引用型別都是物件，物

Vue（六）：條件與循環

根據 var 電梯 user team 不同的 see script img 1.條件（v-if）控制切換一個元素是否顯示 <div id="app-3"> <p v-if="seen">現在你看到我了</p> </div&

Vue（六）：條件與迴圈

1.條件（v-if）控制切換一個元素是否顯示 <div id="app-3"> <p v-if="seen">現在你看到我了</p> </div> <script> var app3 = new Vue({ el: '#app-3

排序與查詢例項（六）：計數排序

常見的非比較排序演算法有3個計數排序，基數排序，桶排序，平均時間複雜度都是O(n)。比較排序就是指通過比較操作(通常是“小於或等於”操作)來確定兩個元素中哪個應該放在序列前面。比較排序

我對hyperledger fabric1.1.0的執著（六）：kafka叢集部署

1、用11臺伺服器，如下名稱 ip Hostname 組織機構 Zk1 192.168.2.237 zookeeper1 Zk2 19

通證經濟大局觀（六）：所有權與投票權的矛盾

現實世界所有權與投票權的矛盾片段一：公元前399年，雅典城裡那個喜歡在大街上到處拉著人，問奇怪問題的古怪老頭蘇格拉底，被人以“不敬神”和“腐化青年”的罪名告上法庭，最終，雅典公民大會以360票比140票，將這位智者判處死刑。片段二：據統計，近

python與自然語言處理（六）：中文文字轉影象

最近使用word2vec對文字進行向量化表示，然後模仿基於CNN的影象分類實現文字分類。既然是模仿影象，那就應該可以將文字用影象視覺化一下，看看量化後的文字是什麼樣子。python處理影象的基本模組是Image庫，由於實驗中使用的是python3，需要安裝的影象處理庫為Pil

Ansible入門篇（六）：Kafka自動化安裝

Kafka是一種高吞吐量的分散式釋出訂閱訊息系統，可作為中介軟體進行資料隔離、傳輸作用。 Kafka安裝包下載到 Kafka官網下載對應版本的安裝包，本文以kafka 1.0.2為例。將下載好的kafka_2.11-1.0.2.tgz上傳到/opt/ans

循序漸進實現仿QQ介面（六）：異型選單與內建滾動條自繪

本篇演示實現仿QQ介面的異型選單與滾動條自繪。先講解一下如何實現QQ的圓角選單，這個要用到HOOK了，因為選單是一種特殊的視窗，無法用FindWindow或通過HMENU來獲取到視窗控制代碼，也就無法子類化。必須下鉤子，這裡下的是WH_CALLWNDPROC的鉤子： B

微服務詳解（六）：部署與測試

獨立部署和使用諸如Docker的容器來部署微服務，使用Docker將專案部署到AWS上。可以利用Docker或者任何其他容器，可以簡化部署； 1.使用Netflix OSS的微服務架構概述 Netflix是微服務架構中的先鋒，通過他

kafka（六）：與spark streaming對接，spark streaming接收kafka資料來源

1.功能實現

2.pom依賴

3.scala程式碼

相關推薦