1. 程式人生 > >sparkStreaming讀取kafka資料的2種方式

sparkStreaming讀取kafka資料的2種方式

方式一  Receiver
          使用Kafka的高層次Consumer API來實現。receiver從Kafka中獲取的資料都儲存在Spark Executor的記憶體中,然後Spark Streaming啟動的job會去處理那些資料。然而,在預設的配置下,這種方式可能會因為底層的失敗而丟失資料。如果要啟用高可靠機制,讓資料零丟失,就必須啟用Spark Streaming的預寫日誌機制(Write Ahead Log,WAL)。該機制會同步地將接收到的Kafka資料寫入分散式檔案系統(比如HDFS)上的預寫日誌中。所以,即使底層節點出現了失敗,也可以使用預寫日誌中的資料進行恢復。

注意事項:

1、Kafka中topic的partition與Spark中RDD的partition是沒有關係的,因此,在KafkaUtils.createStream()中,提高partition的數量,只會增加Receiver的數量,也就是讀取Kafka中topic partition的執行緒數量,不會增加Spark處理資料的並行度。

2、可以建立多個Kafka輸入DStream,使用不同的consumer group和topic,來通過多個receiver並行接收資料。

3、如果基於容錯的檔案系統,比如HDFS,啟用了預寫日誌機制,接收到的資料都會被複制一份到預寫日誌中。因此,在KafkaUtils.createStream()中,設定的持久化級別是StorageLevel.MEMORY_AND_DISK_SER。

程式碼展示:

val conf = new SparkConf().setAppName("kafkawc").setMaster("local[2]")
val ssc = new StreamingContext(conf,Duration(5000))
ssc.checkpoint("xxx")
//編寫kafka配置資訊
//首先我們編寫kafka依賴的zk資訊
val zks = "192.168.244.141:2181"  //3個全部寫上也行
//然後是kafka的消費者組
val groupId = "gp1"
  //Topic名字
val topics = Map[String,Int]("demo1"->1)
//建立kafka的輸入資料流,獲取kafka的資料  第一種方式讀取kafka直接createStream
val data: ReceiverInputDStream[(String, String)] = KafkaUtils.createStream(ssc,zks,groupId,topics)

方式二  Direct

          Spark1.3中引入Direct方式,用來替代掉使用Receiver接收資料,這種方式會週期性地查詢Kafka,獲得每個topic+partition的最新的offset,從而定義每個batch的offset的範圍。當處理資料的job啟動時,就會使用Kafka的簡單consumer api來獲取Kafka指定offset範圍的資料。

優點

1、簡化並行讀取:如果要讀取多個partition,不需要建立多個輸入DStream,然後對它們進行union操作。Spark會建立跟Kafka partition一樣多的RDD partition,並且會並行從Kafka中讀取資料。所以在Kafka partition和RDD partition之間,有一個一對一的對映關係。

2、高效能:如果要保證零資料丟失,在基於receiver的方式中,需要開啟WAL機制。這種方式其實效率低下,因為資料實際上被複制了兩份,Kafka自己本身就有高可靠的機制會對資料複製一份,而這裡又會複製一份到WAL中。而基於direct的方式,不依賴Receiver,不需要開啟WAL機制,只要Kafka中作了資料的複製,那麼就可以通過Kafka的副本進行恢復。

程式碼:

 Logger.getLogger("org").setLevel(Level.WARN)
    val conf = new SparkConf()
    conf.setAppName("spark_streaming")
    conf.setMaster("local[*]")
    val sc = new SparkContext(conf)
    sc.setCheckpointDir("e:/checkDir")
    sc.setLogLevel("ERROR")
    val ssc = new StreamingContext(sc, Seconds(5))
    // val topics = Map("spark" -> 2)
    val kafkaParams = Map[String, String](
      "bootstrap.servers" -> "192.168.244.141:9092",
      "group.id" -> "wc",
      "auto.offset.reset" -> "smallest"
    )
    // 直連方式拉取資料,這種方式不會修改資料的偏移量,需要手動的更新  //第一個值是偏移量 第二個是資料
    //第一個引數是streamingContext,第二個是叢集一些配置,第三個是topic主題,可以有多個
    val lines: DStream[String] =  KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, Set("wc2")).map(_._2)
    // val lines = KafkaUtils.createStream(ssc, "m1:2181,m2:2181,m3:2181", "spark", topics).map(_._2)
//下面根據lines進行操作lines的型別是DStream[String]
    val ds1 = lines.flatMap(_.split(" ")).map((_, 1))

    val ds2 = ds1.updateStateByKey[Int]((x:Seq[Int], y:Option[Int]) => {
      Some(x.sum + y.getOrElse(0))
    })

    ds2.print()

    ssc.start()
    ssc.awaitTermination()