Spark Streaming中reduceByKeyAndWindow例項開發

阿新 • • 發佈：2019-02-14

package SparkStreamingTest.Scala

import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * Created by TG.
  * 每隔2秒鐘，統計最近5秒鐘的搜尋詞中排名最靠前的3個搜尋詞以及出現次數。
  */
object ReduceByKeyAndWindowDemo {
  def main(args: Array[String]): Unit = {
    //設定日誌級別
    Logger.getLogger 
("org").setLevel(Level.WARN)
    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[2]")
    val ssc = new StreamingContext(conf, Seconds(1))

    //StorageLevel.MEMORY_AND_DISK_SER_2
    val linesDStream = ssc.socketTextStream("master", 6666)
    //StorageLevel.MEMORY_ONLY_SER
    //    linesDStream.persist 
()
    linesDStream.checkpoint(Seconds(10))

    linesDStream.flatMap(_.split(" "))
      .map((_, 1))
      .reduceByKeyAndWindow((a: Int, b: Int) => a + b, Seconds(5), Seconds(2))
      .transform(rdd => {
        val result: Array[(String, Int)] = rdd.map(x => (x._2, x._1)).sortByKey(false).map 
(x => (x._2, x._1)).take(3)
        //result的型別不是RDD，而是一個Array陣列，此處將其變為RDD
        val resultRDD = ssc.sparkContext.parallelize(result)
        //注意：transform函式是要有返回值的，所以將操作之後的resultRDD返回。
        resultRDD
      }).map(x => x._1 + "出現的次數是：" + x._2).print()

    ssc.start()
    ssc.awaitTermination()
  }
}

Spark Streaming中reduceByKeyAndWindow例項開發

package SparkStreamingTest.Scala import org.apache.log4j.{Level, Logger} import org.apache.spark.Spa

spark streaming中reduceByKeyAndWindow簡單例子

視窗的一些簡單操作 import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingCon

Spark Streaming中的基本操作函式例項

該文例項我的碼雲直達車請了解一些基本資訊： DStream是Spark Streaming提供的基本抽象。它表示連續的資料流，可以是從源接收的輸入資料流，也可以是通過轉換輸入流生成的已處理資料流。在內部，DStream由一系列連續的RDD表示，這是Spar

【轉】Spark Streaming和Kafka整合開發指南

thread ada 關系方法拷貝理解 1.2 reduce arr 基於Receivers的方法這個方法使用了Receivers來接收數據。Receivers的實現使用到Kafka高層次的消費者API。對於所有的Receivers，接收到的數據將會保存在Spark

Spark Streaming中的操作函數講解

csdn 後綴 rep 包含著所有並行計算技術分享 ref filter Spark Streaming中的操作函數講解根據根據Spark官方文檔中的描述，在Spark Streaming應用中，一個DStream對象可以調用多種操作，主要分為以下幾類 Tra

spark streaming中WordCount

通過一些簡單的案例，可以知道一些大致的用法 1.對每一個批次的資料進行操作： import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import org.apache.spark.streami

spark streaming 中 direct 直連方式從kafka中怎麼拉取資料

我們知道 SparkStreaming 用 Direct 的方式拉取 Kafka 資料時，是根據 kafka 中的 fromOffsets 和 untilOffsets 來進行獲取資料的，而 fromOffsets 一般都是需要我們自己管理的，而每批次的 untilOffse

spark streaming中transform過濾廣告黑名單

/* transform操作，應用在DStream上時，可以用於執行任意的RDD到RDD的轉換操作。它可以用於實現，DStream API中所沒有提供的操作。比如說，DStream API中，並沒有提供將一個DStream中的每個batch，與一個特定的RDD進行joi

Spark Streaming 中如何實現 Exactly-Once 語義

Exactly-once 語義是實時計算的難點之一。要做到每一條記錄只會被處理一次，即使伺服器或網路發生故障時也能保證沒有遺漏，這不僅需要實時計算框架本身的支援，還對上游的訊息系統、下游的資料儲存有所要求。此外，我們在編寫計算流程時也需要遵循一定規範，才能真正實

40：Spark Streaming中KafkaReceiver內幕實現徹底解密

本期內容： 1. KafkaInputDStream原始碼解密 2. KafkaReceiver原始碼解密 Direct方式，是No Receiver方式，和普通Receiver方式，最大的

Spark Streaming中withWatermark的簡單嘗試

我們在處理流資料的時候，往往會有實時性要求。可是如果我們直接按照程式所在伺服器的當前時間計算又不行，比如當上遊日志資料延遲了，則所有的這部分資料都會被拋棄掉。所以一般我們在記錄日誌的時候，加上日誌的時間戳。這樣我們在進行流處理的時候，就可以把日誌記錄的時間拿出來，根據這個時間

Spark Streaming中的Receiver方式和直連方式

Spark Streaming從Kafka中接受資料的時候有兩種方式，一種是使用Receiver的老方法，另一種是使用直連的方法 1.Receiver方式 Receiver是使用Kafka高階消費者API實現的，與所有接收器一樣，從Kafka通過Receiver接收的資料

spark streaming中的廣播變數應用

1. 廣播變數我們知道spark 的廣播變數允許快取一個只讀的變數在每臺機器上面，而不是每個任務儲存一份拷貝。常見於spark在一些全域性統計的場景中應用。通過廣播變數，能夠以一種更有效率的方式將一個大資料量輸入集合的副本分配給每個節點。Spark也嘗試著利用有效的廣播演

Spark Streaming 中管理 Kafka Offsets 的幾種方式

本文轉載自：https://www.jianshu.com/p/ef3f15cf400d（點選下

spark streaming中維護kafka偏移量到外部介質

.exe topic _each keys off exec lose eat comm spark streaming中維護kafka偏移量到外部介質以kafka偏移量維護到redis為例。 redis存儲格式使用的數據結構為string，其中key為topic:

Spark Streaming從Kafka中獲取數據，並進行實時單詞統計，統計URL出現的次數

scrip 發送消息 rip mark 3.2 umt 過程 bject ttr 1、創建Maven項目創建的過程參考：http://blog.csdn.net/tototuzuoquan/article/details/74571374 2、啟動Kafka A:安裝ka

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二十五）Structured Streaming：同一個topic中包含一組數據的多個部分，按照key它們拼接為一條記錄（以及遇到的問題）。

eas array 記錄 splay span ack timestamp b- each 需求：目前kafka的topic上有一批數據，這些數據被分配到9個不同的partition中（就是發布時key:{m1,m2,m3,m4...m9},value:{records

Scala和Java二種方式實戰Spark Streaming開發

在這裡我主要借鑑課上老師講的以及官網的ＡＰＩ來進行簡單的Spark Streaming的開發：一：java形式： 1.我們可以總結一下步驟：第一步：建立SparkConf物件第二步：建立SparkStreamingContext 第三步：建立愛你

本地開發spark streaming無法消費雲主機kafka訊息

1、Kafka叢集在一個192.168.0.x網段的，而我們的生產者在叢集外，無法將訊息傳送過去錯誤：11:21:13,936 ERROR KafkaProducer - Batch containing 11 record(s) expired due to timeout while re

Spark Streaming 專案實戰（12）—— Web層開發

1 Web 層開發 1.1 POM 新增依賴 <dependency> <groupId>net.sf.json-lib</groupId> <artifactId>json-lib&

Spark Streaming中reduceByKeyAndWindow例項開發

相關推薦