Spark Streaming 滑動視窗

Spark Streaming提供了滑動視窗操作的支援，從而讓我們可以對一個滑動視窗內的資料執行計算操作。每次掉落在視窗內的RDD的資料，會被聚合起來執行計算操作，然後生成的RDD，會作為window DStream的一個RDD。

網官圖中所示，就是對每三秒鐘的資料執行一次滑動視窗計算，這3秒內的3個RDD會被聚合起來進行處理，然後過了兩秒鐘，又會對最近三秒內的資料執行滑動視窗計算。所以每個滑動視窗操作，都必須指定兩個引數，視窗長度以及滑動間隔，而且這兩個引數值都必須是batch間隔的整數倍。

Spark Streaming對滑動視窗的支援，是比Storm更加完善和強大的。

之前有些朋友問：

spark官網圖片中：滑動視窗寬度是3個時間單位，滑動時間是2兩個單位，這樣的話中間time3的Dstream不是重複計算了嗎？

Answer：比如下面這個例子是針對熱搜的應用場景，官方的例子也可能是是針對不同的場景給出了的。如果你不想出現重疊的部分，把滑動間隔由2改成3即可

SparkStreaming對滑動視窗支援的轉換操作：

示例講解：

1、window(windowLength, slideInterval)

該操作由一個DStream物件呼叫，傳入一個視窗長度引數，一個視窗移動速率引數，然後將當前時刻當前長度視窗中的元素取出形成一個新的DStream。

下面的程式碼以長度為3，移動速率為1擷取源DStream中的元素形成新的DStream。

val windowWords = words.window(Seconds( 3 ), Seconds( 1))

基本上每秒輸入一個字母，然後取出當前時刻3秒這個長度中的所有元素，打印出來。從上面的截圖中可以看到，下一秒時已經看不到a了，再下一秒，已經看不到b和c了。表示a, b, c已經不在當前的視窗中。

2、 countByWindow(windowLength,slideInterval)

返回指定長度視窗中的元素個數。

程式碼如下，統計當前3秒長度的時間視窗的DStream中元素的個數：

val windowWords = words.countByWindow(Seconds( 3 ), Seconds( 1))

3、 reduceByWindow(func, windowLength,slideInterval)

類似於上面的reduce操作，只不過這裡不再是對整個呼叫DStream進行reduce操作，而是在呼叫DStream上首先取視窗函式的元素形成新的DStream，然後在視窗元素形成的DStream上進行reduce。

val windowWords = words.reduceByWindow(_ + "-" + _, Seconds( 3) , Seconds( 1 ))

4、 reduceByKeyAndWindow(func,windowLength, slideInterval, [numTasks])

呼叫該操作的DStream中的元素格式為(k, v)，整個操作類似於前面的reduceByKey，只不過對應的資料來源不同，reduceByKeyAndWindow的資料來源是基於該DStream的視窗長度中的所有資料。該操作也有一個可選的併發數引數。

下面程式碼中，將當前長度為3的時間視窗中的所有資料元素根據key進行合併，統計當前3秒中內不同單詞出現的次數。

val windowWords = pairs.reduceByKeyAndWindow((a:Int , b:Int) => (a + b) , Seconds(3 ) , Seconds( 1 ))

5、 reduceByKeyAndWindow(func, invFunc,windowLength, slideInterval, [numTasks])

這個視窗操作和上一個的區別是多傳入一個函式invFunc。前面的func作用和上一個reduceByKeyAndWindow相同，後面的invFunc是用於處理流出rdd的。

在下面這個例子中，如果把3秒的時間視窗當成一個池塘，池塘每一秒都會有魚遊進或者游出，那麼第一個函式表示每由進來一條魚，就在該類魚的數量上累加。而第二個函式是，每由出去一條魚，就將該魚的總數減去一。

val windowWords = pairs.reduceByKeyAndWindow((a: Int, b:Int ) => (a + b) , (a:Int, b: Int) => (a - b) , Seconds( 3 ), Seconds( 1 ))

下面是演示結果，最終的結果是該3秒長度的視窗中歷史上出現過的所有不同單詞個數都為0。

段時間不輸入任何資訊，看一下最終結果

6、 countByValueAndWindow(windowLength,slideInterval, [numTasks])

類似於前面的countByValue操作，呼叫該操作的DStream資料格式為(K, v)，返回的DStream格式為(K, Long)。統計當前時間視窗中元素值相同的元素的個數。

val windowWords = words.countByValueAndWindow(Seconds( 3 ), Seconds( 1))

示例二：熱點搜尋詞滑動統計，每隔10秒鐘，統計最近60秒鐘的搜尋詞的搜尋頻次，並打印出排名最靠前的3個搜尋詞以及出現次數

Scala版本：

packagecom.spark.streaming    import org.apache.spark.streaming.Seconds import org.apache.spark.streaming.StreamingContext  import org.apache.spark.SparkConf   /**  * @author Ganymede  */ object WindowHotWordS {    def main(args: Array[String]): Unit = {      val conf = newSparkConf().setAppName("WindowHotWordS").setMaster("local[2]")        //Scala中，建立的是StreamingContext      val ssc = new StreamingContext(conf,Seconds(5))        val searchLogsDStream =ssc.socketTextStream("spark1", 9999)       val searchWordsDStream =searchLogsDStream.map { searchLog => searchLog.split(" ")(1)}        val searchWordPairDStream = searchWordsDStream.map{ searchWord => (searchWord, 1) }       // reduceByKeyAndWindow      // 第二個引數，是視窗長度，這是是60秒      // 第三個引數，是滑動間隔，這裡是10秒      // 也就是說，每隔10秒鐘，將最近60秒的資料，作為一個視窗，進行內部的RDD的聚合，然後統一對一個RDD進行後續計算     // 而是隻是放在那裡      // 然後，等待我們的滑動間隔到了以後，10秒到了，會將之前60秒的RDD，因為一個batch間隔是5秒，所以之前60秒，就有12個RDD，給聚合起來，然後統一執行reduceByKey操作      // 所以這裡的reduceByKeyAndWindow，是針對每個視窗執行計算的，而不是針對 某個DStream中的RDD     // 每隔10秒鐘，出來之前60秒的收集到的單詞的統計次數      val searchWordCountsDStream =searchWordPairDStream.reduceByKeyAndWindow((v1: Int, v2: Int) => v1 + v2,Seconds(60), Seconds(10))              val finalDStream =searchWordCountsDStream.transform(searchWordCountsRDD => {        val countSearchWordsRDD =searchWordCountsRDD.map(tuple => (tuple._2, tuple._1))        val sortedCountSearchWordsRDD =countSearchWordsRDD.sortByKey(false)       val sortedSearchWordCountsRDD =sortedCountSearchWordsRDD.map(tuple => (tuple._1, tuple._2))        val top3SearchWordCounts =sortedSearchWordCountsRDD.take(3)         for (tuple <-top3SearchWordCounts) {          println("result : " +tuple)        }         searchWordCountsRDD      })       finalDStream.print()        ssc.start()      ssc.awaitTermination()    } }  
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    Spark Streaming 滑動視窗
      
                                        
                                                Spark Streaming提供了滑動視窗操作的支援，從而讓我們可以對一個滑動視窗內的資料執行計算操作。每次掉落在視窗 

  
 

    

    
    Spark Streaming的視窗操作
      
                
Spark Streaming的Window Operation可以理解為定時的進行一定時間段內的資料的處理。
不要怪我語文不太好。。下面上原理圖吧，一圖勝千言：

如圖：
1. 紅色的矩形就是一個視窗，視窗hold的是一段時間內的資料流。
2.這裡面每一個time都是時間 

  
 

    

    
    Spark-Streaming之window滑動視窗應用
       
  
  
 Spark-Streaming之window滑動視窗應用，Spark Streaming提供了滑動視窗操作的支援，從而讓我們可以對一個滑動視窗內的資料執行計算操作。每次掉落在視窗內的RDD的資料，會被聚合起來執行計算操作，然後生成的RDD，會作為window DStream的一個RDD。 
 

  
 

    

    
    Spark-Streaming之window滑動窗口應用
      針對   間隔   air   int()   ans   應用   spl   窗口   nbsp   Spark-Streaming之window滑動窗口應用，Spark Streaming提供了滑動窗口操作的支持，從而讓我們可以對一個滑動窗口內的數據執行計算操作。每次掉落在窗口內的RDD的數據，會被聚合 

  
 

    

    
    spark運算元：滑動視窗函式reduceByKeyAndWindow的使用
       
 
 1.reduceByKeyAndWindow這個運算元也是lazy的,它用來計算一個區間裡面的資料,如下圖:
 
 截圖自官網,例如每個方塊代表5秒鐘,上面的虛線框住的是3個視窗就是15秒鐘,這裡的15秒鐘就是視窗的長度,其中虛線到實線移動了2個方塊表示10秒鐘,這裡的10秒鐘就表示每隔10秒計算一 

  
 

    

    
    使用Spark Streaming SQL基於時間視窗進行資料統計
       

2.時間窗語法說明 
Spark Streaming SQL支援兩類視窗操作：滾動視窗（TUMBLING）和滑動視窗（HOPPING）。 

2.1滾動視窗 
滾動視窗（TUMBLING）根據每條資料的時間欄位將資料分配到一個指定大小的視窗中進行操作，視窗以視窗大小為步長進行滑動，視窗之間不會出現重疊。 

  
 

    

    
    【Spark深入學習 -15】Spark Streaming前奏-Kafka初體驗
      rod   htm   新的   callback   tails   包括   -c   舉例   清理   ----本節內容-------
1.Kafka基礎概念
 1.1 出世背景
 1.2 基本原理
      1.2.1.前置知識
      1.2.2.架構和原理
      1.2. 

  
 

    

    
    <Spark Streaming><Flume><Integration>
      uri   min   取數   nts   general   ora   span   int   from   Overview

Flume：一個分布式的，可靠的，可用的服務，用於有效地收集、聚合、移動大規模日誌數據
我們搭建一個flume + Spark Streaming的平臺來從Flume獲取數 

  
 

    

    
    <Spark Streaming><本地調試>
      pri   lis   pac   flume   object   st2   soc   port   打包   寫在前面

因為本地電腦沒裝flume，nginx各種。所以之前寫Streaming程序的時候，都是打包了放到集群上跑。就算我在程序代碼裏不停地logger，調試起來也hin不方便。
於是本地 

  
 

    

    
    spark streaming基礎知識1
      ati   發送   數據   沒有   手動   rdd   drive   入隊   定期   1.怎麽理解spark streaming中的dstream?
它是spark streaming的基礎數據結構,代表著(time,RDD)序列,有兩種生成方式,一種是基於流數據創建(kafka,socket 

  
 

    

    
    Dataflow編程模型和spark streaming結合
      而且   拆分   元組tuple   ica   目前   維度   前景   fix   好的   Dataflow編程模型和spark streaming結合
 
主要介紹一下Dataflow編程模型的基本思想，後面再簡單比較一下Spark  streaming的編程模型
 
== 是什麽 ==
 
  

  
 

    

    
    Spark Streaming從Kafka中獲取數據，並進行實時單詞統計，統計URL出現的次數
      scrip   發送消息   rip   mark   3.2   umt   過程   bject   ttr   1、創建Maven項目
創建的過程參考：http://blog.csdn.net/tototuzuoquan/article/details/74571374
2、啟動Kafka
A:安裝ka 

  
 

    

    
    下載基於大數據技術推薦系統實戰教程(Spark ML Spark Streaming Kafka Hadoop Mahout Flume Sqoop Redis)
      大數據技術推薦系統   推薦系統實戰   地址:http://pan.baidu.com/s/1c2tOtwc  密碼:yn2r82課高清完整版，轉一播放碼。互聯網行業是大數據應用最前沿的陣地，目前主流的大數據技術，包括 hadoop，spark等，全部來自於一線互聯網公司。從應用角度講，大數據在互聯網領域主 

  
 

    

    
    spark streaming從指定offset處消費Kafka數據
      tpc   asi   4.2   nes   配置   sof   我們   erl   examples   
 spark streaming從指定offset處消費Kafka數據
2017-06-13 15:19 770人閱讀 評論(2) 收藏 舉報
 分類： spark（5）  

原文地址:htt 

  
 

    

    
    【自動化】基於Spark streaming的SQL服務實時自動化運維
      body   oop   nbsp   define   mysq   tco   source   font   getc   設計背景
spark thriftserver目前線上有10個實例，以往通過監控端口存活的方式很不準確，當出故障時進程不退出情況很多，而手動去查看日誌再重啟處理服務這個過程很低效 

  
 

    

    
    【轉】Spark Streaming和Kafka整合開發指南
      thread   ada   關系   方法   拷貝   理解   1.2   reduce   arr   基於Receivers的方法
這個方法使用了Receivers來接收數據。Receivers的實現使用到Kafka高層次的消費者API。對於所有的Receivers，接收到的數據將會保存在Spark 

  
 

    

    
    Yarn上常駐Spark-Streaming程序調優
      disable   principal   row   use   傳輸   設置   較高的   提高   此外   對於長時間運行的Spark Streaming作業，一旦提交到YARN群集便需要永久運行，直到有意停止。任何中斷都會引起嚴重的處理延遲，並可能導致數據丟失或重復。YARN和Apache Sp 

  
 

    

    
    Spark Streaming簡介
      and   style   實時處理   board   dfs   distrib   output   數據庫   zed    Spark Streaming 是core Spark的一個擴展，用來處理實時數據流，數據源可以來自Kafka, Flume, HDFS等，經過復雜的算法處理後，存入HDFS， 

  
 

    

    
    IDEA Spark Streaming 操作(套接字流)-----make socket數據源
      運行   accep   index   lines   sleep   div   rri   object   art   
import java.io.PrintWriter
import java.net.ServerSocket

import scala.io.Source


object D 

  
 

    

    
    [Spark][Streaming]Spark讀取網絡輸入的例子
      trac   pair   keep   exception   clas   zookeeper   包含   air   blog   Spark讀取網絡輸入的例子：
參考如下的URL進行試驗
https://stackoverflow.com/questions/46739081/how-to-ge