Spark Streaming消費Kafka的資料進行統計

阿新 • • 發佈：2018-12-20

流處理平臺：
在這裡插入圖片描述
這裡是第四步的實現：
Spark Streaming整合Kafka採用的是Receiver-based，另一種方式Direct Approach，稍作修改就行。

package spark

import org.apache.spark.SparkConf
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * Spark Streaming對接Kafka
  */
object KafkaStreamingApp { 


  def main(args: Array[String]): Unit = {

    if(args.length != 4) {
      System.err.println("Usage: KafkaStreamingApp <zkQuorum> <group> <topics> <numThreads>")
    }

    val Array(zkQuorum, group, topics, numThreads) = args

    val sparkConf = new SparkConf().setAppName 
("KafkaReceiverWordCount")
      .setMaster("local[2]")

    val ssc = new StreamingContext(sparkConf, Seconds(5))

    val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap

    // Spark Streaming如何對接Kafka
    val messages = KafkaUtils.createStream(ssc, zkQuorum, group,topicMap)

    messages. 
map(_._2).count().print()

    ssc.start()
    ssc.awaitTermination()
  }
}

Spark Streaming消費Kafka的資料進行統計

流處理平臺：這裡是第四步的實現： Spark Streaming整合Kafka採用的是Receiver-based，另一種方式Direct Approach，稍作修改就行。 package spark import org.apache.spark.SparkConf impo

Spark Streaming消費Kafka Direct方式資料零丟失實現

一、概述上次寫這篇文章文章的時候，Spark還是1.x，kafka還是0.8x版本，轉眼間spark到了2.x，kafka也到了2.x，儲存offset的方式也發生了改變，筆者根據上篇文章和網上文章，將offset儲存到Redis，既保證了併發也保證了資料不丟失，經過測試，有效。二、

Spark-Streaming獲取kafka資料的兩種方式：Receiver與Direct的方

簡單理解為：Receiver方式是通過zookeeper來連線kafka佇列，Direct方式是直接連線到kafka的節點上獲取資料回到頂部使用Kafka的高層次Consumer API來實現。receiver從Kafka中獲取的資料都儲存在Spark Exec

學習筆記 --- Kafka Spark Streaming獲取Kafka資料 Receiver與Direct的區別

Receiver 使用Kafka的高層次Consumer API來實現 receiver從Kafka中獲取的資料都儲存在Spark Executor的記憶體中，然後Spark Streaming啟動的job會去處理那些資料要啟用高可靠機制，讓資料零丟失，就必須啟用Spark

Spark Streaming接收kafka資料，輸出到HBase

需求 Kafka + SparkStreaming + SparkSQL + HBase 輸出TOP5的排名結果排名作為Rowkey，word和count作為Column 實現建立kafka生產者模擬隨機生產資料 object produ

spark streaming 接收kafka資料寫入Hive分割槽表

直接上程式碼 object KafkaToHive{ def main(args: Array[String]){ val sparkConf = new SparkConf().setAppName("KafkaToHive") val sc = new SparkConte

java實現spark streaming與kafka整合進行流式計算

背景：網上關於spark streaming的文章還是比較多的，可是大多數用scala實現，因我們的電商實時推薦專案以java為主，就踩了些坑，寫了java版的實現，程式碼比較意識流，輕噴，歡迎討論。流程：spark streaming從kafka讀使用者實時點選資料，過濾資

如何管理Spark Streaming消費Kafka的偏移量（二）

上篇文章，討論了在spark streaming中管理消費kafka的偏移量的方式，本篇就接著聊聊上次說升級失敗的案例。事情發生一個月前，由於當時我們想提高spark streaming程式的並行處理效能，於是需要增加kafka分割槽個數，，這裡需要說下，在新版本sp

如何管理Spark Streaming消費Kafka的偏移量（三）

前面的文章已經介紹了在spark streaming整合kafka時，如何處理其偏移量的問題，由於spark streaming自帶的checkpoint弊端非常明顯，所以一些對資料一致性要求比較高的專案裡面，不建議採用其自帶的checkpoint來做故障恢復。在sp

spark streaming讀取kafka資料，記錄offset

如下是pom.xml檔案<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocati

spark streaming讀取kafka資料令丟失（二）

方式二：方法二就是每次streaming 消費了kafka的資料後，將消費的kafka offsets更新到zookeeper。當你的程式掛掉或者升級的時候，就可以接著上次的讀取，實現資料的令丟失和 at most once。而且使用checkpoint的方

Spark Streaming從Kafka中獲取資料，並進行實時單詞統計，統計URL出現的次數

1、建立Maven專案 2、啟動Kafka 3、編寫Pom檔案 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.or

Spark Streaming從Kafka中獲取數據，並進行實時單詞統計，統計URL出現的次數

scrip 發送消息 rip mark 3.2 umt 過程 bject ttr 1、創建Maven項目創建的過程參考：http://blog.csdn.net/tototuzuoquan/article/details/74571374 2、啟動Kafka A:安裝ka

spark Streaming 直接消費Kafka資料，儲存到 HDFS 實戰程式設計實踐

最近在學習spark streaming 相關知識，現在總結一下主要程式碼如下 def createStreamingContext():StreamingContext ={ val sparkConf = new SparkConf().setAppName("

大資料學習之路97-kafka直連方式（spark streaming 整合kafka 0.10版本）

我們之前SparkStreaming整合Kafka的時候用的是傻瓜式的方式-----createStream,但是這種方式的效率很低。而且在kafka 0.10版本之後就不再提供了。接下來我們使用Kafka直連的方式，這種方式其實是呼叫Kafka底層的消費資料的API,我們知道，越底層的東

大資料學習之路107-spark streaming基於mysql歷史state統計

package com.test.sparkStreaming import java.sql.{DriverManager, PreparedStatement} import com.typesafe.config.{Config, ConfigFactory} im

Spark 消費Kafka資料

spark RDD消費的哦，不是spark streaming。導maven包：注意版本哦，要跟自己機器的一致

十三.Spark SQL之通過Zeppelin進行統計資料的展示

Spark SQL學習有一段時間了,因此花了一些時間寫了一個日誌清洗的專案,專案已經上傳到github上了, 專案地址感興趣的可以拉下來看看。在這裡我不講關於專案的實現過程,清洗之後的結果進行資料展示的時候,除了echarts框架,還發

Spark Streaming整合Kafka實現網站點選流實時統計

安裝並配置zk 安裝並配置Kafka 啟動zk 啟動Kafka 建立topic bin/kafka-topics.sh --create --zookeeper node1.itcast.cn:2181,node2.itcast.cn:2181 \ --

Spark Streaming結合 Kafka 兩種不同的資料接收方式比較

DirectKafkaInputDStream 只在 driver 端接收資料，所以繼承了 InputDStream，是沒有 receivers 的在結合 Spark Streaming 及 Kafka 的實時應用中，我們通常使用以下兩個 API 來獲取最初的 DStream（這裡不關心這兩個 API 的

Spark Streaming消費Kafka的資料進行統計

相關推薦