SparkSteaming中直連與receiver兩種方式的區別

阿新 • • 發佈：2018-11-19

SparkStreaming的Receiver方式和直連方式有什麼區別？

Receiver接收固定時間間隔的資料（放在記憶體中的），使用高階API，自動維護偏移量，達到固定的時間才去進行處理，效率低並且容易丟失資料，靈活性特別差，不好，而且它處理資料的時候，如果某一刻的資料量過大，那麼就會造成磁碟溢寫的情況，他通過WALS進行磁碟寫入。

Receiver實現方式：

程式碼如下：

object KafkaWC02 {


  def main(args: Array[String]): Unit = {


    val conf = new SparkConf().setAppName("kafkaWC").setMaster("local[2]") //設定執行緒數
    val ssc = new StreamingContext(conf, Seconds(5))

    //設定檢查點
    ssc.checkpoint("D:\\data\\checpoint\\checpoint1")
    //接下來編寫kafka的配置資訊
    val zks = "spark01:2181"
    //然後是kafka的消費組
    val groupId = "gp1"
    //Topic的名字  Map的key是Topic名字，第二個引數是執行緒數
    val topics = Map[String, Int]("test02" -> 1)
    //建立kafka的輸入資料流，來獲取kafka中的資料
    val data = KafkaUtils.createStream(ssc, zks, groupId, topics)
    //獲取到的資料是鍵值對的格式(key,value)
    //獲取到的資料是 key是偏移量  value是資料
    //接下來開始處理資料


    val lines = data.flatMap(_._2.split(" "))
    val words = lines.map((_, 1))
    val res = words.updateStateByKey(updateFunc,new HashPartitioner(ssc.sparkContext.defaultParallelism),true)
    res.print()
    //val result = words.reduceByKey(_ + _)
    //val res = result.updateStateByKey[Int](updateFunc)
    //res.print()
    //列印輸出
    //result.print()
    //啟動程式
    ssc.start()
    //等待停止
    ssc.awaitTermination()


  }
  //(iterator:Iteratot[(K,Seq[V]),Option[S]]))
  //傳過來的值是Key   Value型別
  //第一個引數，是我們從kafka獲取到的元素，key  ,String型別
  //第二個引數，是我們進行單詞統計的value值，Int型別
  //第三個引數，是我們每次批次提交的中間結果集
  val updateFunc=(iter:Iterator[(String,Seq[Int],Option[Int])])=>{
    iter.map(t=>{
      (t._1,t._2.sum+t._3.getOrElse(0))
    })
  }
}

Direct直連方式，

它使用的是底層API實現Offest我們開發人員管理，這樣的話，它的靈活性特別好。並且可以保證資料的安全性，而且不用擔心資料量過大，因為它有預處理機制，進行提前處理，然後再批次提交任務。

Direct實現方式：

程式碼如下：

import kafka.common.TopicAndPartition
import kafka.message.MessageAndMetadata
import kafka.serializer.StringDecoder
import kafka.utils.{ZKGroupTopicDirs, ZkUtils}
import org.I0Itec.zkclient.ZkClient
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka.{HasOffsetRanges, KafkaUtils, OffsetRange}
import org.apache.spark.streaming.{Duration, StreamingContext}

/**
  * 重要！！！  Direct直連方式
  */
object KafkaDirectWC {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("Direct").setMaster("local[2]")
    val ssc = new StreamingContext(conf,Duration(5000))
    //指定組名
    val groupId = "gp01"
    //指定消費的topic名字
    val topic = "tt"
    //指定kafka的Broker地址（SparkStreaming的Task直接連線到Kafka分割槽上，用的是底層API消費）
    val brokerList ="spark:9092"
    //接下來我們要自己維護offset了，將offset儲存到ZK中
    val zkQuorum = "spark:2181"
    //建立stream時使用的topic名字集合，SparkStreaming可以同時消費多個topic
    val topics:Set[String] = Set(topic)
    //建立一個ZkGroupTopicDirs物件，其實是指定往Zk中寫入資料的目錄
    // 用於儲存偏移量
    val TopicDirs = new ZKGroupTopicDirs(groupId,topic)
    //獲取zookeeper中的路徑“/gp01/offset/tt/”
    val zkTopicPath = s"${TopicDirs.consumerOffsetDir}"
    //準備kafka引數
    val kafkas = Map(
      "metadata.broker.list"->brokerList,
      "group.id"->groupId,
      //從頭開始讀取資料
      "auto.offset.reset"->kafka.api.OffsetRequest.SmallestTimeString
    )
    // zookeeper 的host和ip，建立一個client，用於更新偏移量
    // 是zookeeper客戶端，可以從zk中讀取偏移量資料，並更新偏移量
    val zkClient = new ZkClient(zkQuorum)
    //"/gp01/offset/tt/0/10001"
    //"/gp01/offset/tt/1/20001"
    //"/gp01/offset/tt/2/30001"
    val clientOffset = zkClient.countChildren(zkTopicPath)
    // 建立KafkaStream
    var kafkaStream :InputDStream[(String,String)]= null
    //如果zookeeper中有儲存offset 我們會利用這個offset作為KafkaStream的起始位置
    //TopicAndPartition  [/gp01/offset/tt/0/ , 8888]
    var fromOffsets:Map[TopicAndPartition,Long] = Map()
    //如果儲存過offset
    if(clientOffset > 0){
      //clientOffset 的數量其實就是 /gp01/offset/tt的分割槽數目
      for(i<-0 until clientOffset){
        // /gp01/offset/tt/  0/10001
        val partitionOffset = zkClient.readData[String](s"$zkTopicPath/${i}")
        // tt/0
        val tp = TopicAndPartition(topic,i)
        //將不同partition 對應得offset增加到fromoffset中
        // tt/0 -> 10001
        fromOffsets += (tp->partitionOffset.toLong)
      }
      // key 是kafka的key value 就是kafka資料
      // 這個會將kafka的訊息進行transform 最終kafka的資料都會變成(kafka的key,message)這樣的Tuple
      val messageHandler = (mmd:MessageAndMetadata[String,String])=>
        (mmd.key(),mmd.message())
      // 通過kafkaUtils建立直連的DStream
      //[String,String,StringDecoder, StringDecoder,(String,String)]
      // key    value  key解碼方式     value的解碼方式   接收資料的格式
      kafkaStream = KafkaUtils.createDirectStream
        [String,String,StringDecoder,
          StringDecoder,(String,String)](ssc,kafkas,fromOffsets,messageHandler)
    }else{
      //如果未儲存，根據kafkas的配置使用最新的或者最舊的offset
      kafkaStream = KafkaUtils.createDirectStream
        [String,String,StringDecoder,StringDecoder](ssc,kafkas,topics)
    }
    //偏移量範圍
    var offsetRanges = Array[OffsetRange]()
    //從kafka讀取的資料，是批次提交的，那麼這塊注意下，
    // 我們每次進行讀取資料後，需要更新維護一下偏移量
    //那麼我們開始進行取值
    //    val transform = kafkaStream.transform{
    //      rdd=>
    //        //得到該RDD對應得kafka訊息的offset
    //        // 然後獲取偏移量
    //        offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
    //        rdd
    //    }
    //    val mes = transform.map(_._2)
    // 依次迭代DStream中的RDD
    kafkaStream.foreachRDD{
      //對RDD進行操作 觸發Action
      kafkardd=>

        offsetRanges = kafkardd.asInstanceOf[HasOffsetRanges].offsetRanges

        //下面 你就可以怎麼寫都行了，為所欲為
        val maps = kafkardd.map(_._2)

        maps.foreach(println)

        for(o<-offsetRanges){
          // /gp01/offset/tt/  0
          val zkpath = s"${TopicDirs.consumerOffsetDir}/${o.partition}"
          //將該partition的offset儲存到zookeeper中
          // /gp01/offset/tt/  0/88889
          ZkUtils.updatePersistentPath(zkClient,zkpath,o.untilOffset.toString)
        }
    }
    // 啟動
    ssc.start()
    ssc.awaitTermination()
  }
}

SparkSteaming中直連與receiver兩種方式的區別

SparkStreaming的Receiver方式和直連方式有什麼區別？ Receiver接收固定時間間隔的資料（放在記憶體中的），使用高階API，自動維護偏移量，達到固定的時間才去進行處理，效率低並且容易丟失資料，靈活性特別差，不好，而且它處理資料的時候，如果某一刻的資料量過大，那麼就會造成磁碟溢寫的情況

vue 路由傳參 params 與 query兩種方式的區別

fine 分享文件路由註意 undefine 方法 router 由於　　初學vue的時候，不知道如何在方法中跳轉界面並傳參，百度過後，了解到兩種方式，params 與 query。然後，錯誤就這麽來了：　　 router文件下index.js裏面，是這麽定義路由

python利用mongodb上傳圖片資料 : GridFS 與 bson兩種方式

利用mongodb儲存圖片通常有兩種方法，一種是將圖片資料轉化為二進位制作為字典的鍵值對進行儲存，另一種是利用mongodb提供的GridFS進行儲存，兩者各有利弊。效能方面的優劣未曾測試，無法進行評價，此處僅對兩種方式進行介紹，若有徹知者還望指教。下面以如

mybatis關於SQL語句註解與XML兩種方式

細節記錄（此處未整合spring）：1.SQL使用註解時，需手動新增Mapper:即sqlSessionFactory.getConfiguration().addMapper(XXXMapper.class);2.XML方式時，注意xml中的namespace的值為Mapp

關於串列埠通訊查詢與中斷兩種方式

void init_ser() //串列埠初始化 { TMOD=0x20; //定時器1工作於方式2 TH1=0xf3; //娤初值波特率為2400 TL1=0xf3; TR1=1; //開定時器1 SCON=0x50; //設定串列埠方式1 允許接收

Nginx配置同一個域名同時支援http與https兩種方式訪問

server { listen 80; listen 443 ssl; ssl on; server_name 域名; index index.html index.htm index.php default.html default.htm default.php; ssl_certificate /usr

iptables與firewalld兩種方式防火牆切換

用iptables開啟防火牆報錯: Failed to start IPv4 firewall with iptables. 錯誤原因：因為centos7.0預設不是使用iptables方式管理，而是firewalld方式。CentOS6.0防火牆用ipt

JS中訪問對象的兩種方式區別

log 存在語言 pre 兩種初始 cti col span 可以使用下面兩種方式訪問對象的屬性和方法 1.對象名.屬性名　　　　對象名.方法名() 2.對象名["屬性名"]　　　對象名["方法名"]() 1 var obj = { 2

Map集合遍歷兩種方式區別和效能

Map<String,String> map = new HashMap<String,String>();map.put("01", "zhangsan");map.put("02", "lisi");map.put("03", "wangwu");Collection<Str

Spark-Streaming獲取kafka資料的兩種方式：Receiver與Direct的方

簡單理解為：Receiver方式是通過zookeeper來連線kafka佇列，Direct方式是直接連線到kafka的節點上獲取資料回到頂部使用Kafka的高層次Consumer API來實現。receiver從Kafka中獲取的資料都儲存在Spark Exec

php連接數據庫的兩種方式- 面向過程面向對象

ont see roo root 插入 () 字數 _id rom 一、面向對象1. 鏈接數據庫 $conn = @new mysqli("127.0.0.1","root","","mydb"); if($conn->connect_errno){ //返回鏈

網絡協議 finally{ return問題註入問題 jdbc註冊驅動問題 PreparedStatement 連接池目的 1.2.1DBCP連接池 C3P0連接池 MYSQL兩種方式進行實物管理 JDBC事務 DBUtils事務 ThreadLocal 事務特性並發訪問隔離級別

ID -- 1.7 ner red style 沒有建立工具 1.1.1 API詳解：註冊驅動 DriverManager.registerDriver(new com.mysql.jdbc.Driver());不建議使用原因有2個： >導致驅動被註冊2次。 &

SparkSteaming中直連與receiver兩種方式的區別

SparkSteaming中直連與receiver兩種方式的區別

vue 路由傳參 params 與 query兩種方式的區別

python利用mongodb上傳圖片資料 : GridFS 與 bson兩種方式

mybatis關於SQL語句註解與XML兩種方式

關於串列埠通訊查詢與中斷兩種方式

Nginx配置同一個域名同時支援http與https兩種方式訪問

iptables與firewalld兩種方式防火牆切換

JS中訪問對象的兩種方式區別

Map集合遍歷兩種方式區別和效能

Spark-Streaming獲取kafka資料的兩種方式：Receiver與Direct的方

php連接數據庫的兩種方式- 面向過程面向對象

網絡協議 finally{ return問題註入問題 jdbc註冊驅動問題 PreparedStatement 連接池目的 1.2.1DBCP連接池 C3P0連接池 MYSQL兩種方式進行實物管理 JDBC事務 DBUtils事務 ThreadLocal 事務特性並發訪問隔離級別

adb連接手機的兩種方式

JDBC中Oracle的SID和ServiceName兩種方式的連接字符串格式

C#+VisionPro連接相機獲取圖像的兩種方式

WPS以及它的兩種方式PIN與PBC的理解

建立的程序的兩種方式與常用屬性

WKWebView與H5互動的兩種方式

div控制顯示與隱藏狀態的兩種方式

兩種方式的交替列印基於Synchronized 與 ReentrantLock

SparkSteaming中直連與receiver兩種方式的區別

相關推薦