SparkStreaming（15）：DStream轉換為RDD的Transform運算元

阿新 • • 發佈：2018-12-16

1.實現功能

DStream中還是缺少某些API的，比如sortByKey之類的。所以使用Transform直接操作DStream中的當前job/批次對應的RDD，來替換DStream的操作（可以直接使用RDD的api），比較方便。

2.程式碼

package _0809kafka

import java.text.SimpleDateFormat
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext, Time}

/**
 * 
 */
object DStream2RddAPI {
  def main(args: Array[String]) {
    //1、建立sparkConf
    val sparkConf: SparkConf = new SparkConf()
      .setAppName("DStream2RddAPI")
      .setMaster("local[2]")
    //2、建立sparkContext
    val sc = new SparkContext(sparkConf)

    val ssc = new StreamingContext(sc,Seconds(10))

    val socketDStream: ReceiverInputDStream[String] = ssc.socketTextStream("bigdata.ibeifeng.com",9999)
    //dstream 當中有一些api是沒有的（例如：sortbyKey等）
    //將DStream轉換成RDD進行操作
    val resultDStream: DStream[((String, String), Int)] = socketDStream.transform((rdd,timestamp) =>{
      val sdf = new SimpleDateFormat("yyyyMMdd HH:mm:ss")
      val ts: String =sdf.format(timestamp.milliseconds)

      rdd.flatMap(_.split(" "))
        .filter(word =>word.nonEmpty)
        .map(word =>((word,ts),1))
        .reduceByKey(_ + _)
        //指定按照第二個位置上的資料型別排序，並且倒敘
        .sortBy(t =>t._2,ascending = false)
    })

    resultDStream.print()
    ssc.start()
    ssc.awaitTermination()


  }

}

3.測試

（1）開啟nc

nc -lt 9999

（2）然後再執行程式，否則會報錯！說9999埠無法連線

（3）輸入測試

（成功~）

SparkStreaming（15）：DStream轉換為RDD的Transform運算元

1.實現功能 DStream中還是缺少某些API的，比如sortByKey之類的。所以使用Transform直接操作DStream中的當前job/批次對應的RDD，來替換DStream的操作（可以直接使用RDD的api），比較方便。 2.程式碼 package

Windows Phone開發（15）：資源

樣式表為什麽 sent name for cor 控件 tar resource 活字印刷術是我國“四大發明”之一，畢昇在發明活字印刷術之後，他很快發現一個問題，隨著要印刷資料的不斷增加，要用到的漢字數目越來越多，於是，他必須尋找一種有效的辦法去管理那些刻有漢字的立方體（

springBoot（15）：集成Swagger

springboot 集成swagger 一、簡介Swagger 是一個規範和完整的框架，用於生成、描述、調用和可視化 RESTful 風格的 Web 服務。http://swagger.io/ Springfox 的前身是swagger-springmvc，是一個開源的API doc框架，可以將我們

多線程面試題系列（15）：關鍵段,事件,互斥量,信號量的“遺棄”問題

creating 不為 char toc 效果創建 cti 不能 false 一.什麽是“遺棄”問題在第七篇講到了互斥量能處理“遺棄”問題，下面引用原文：互斥量常用於多進程之間的線程互斥，所以它比關鍵段還多一個很有用的特性——“遺棄”情況的處理。比如有一個占用互斥量的

Python從菜鳥到高手（15）：字符串格式化

添加使用 s參數一個 gre 引用動態值轉換部分 1. 字符串格式化基礎字符串格式化相當於字符串模板。也就是說，如果一個字符串有一部分是固定的，而另一部分是動態變化的，那麽就可以將固定的部分做成模板，然後那些動態變化的部分使用字符串格式化操作符（%）替換。如一

23種設計模式（15）：備忘錄模式

create getprop 是個類型創建 title pre 定義當前定義：在不破壞封裝性的前提下，捕獲一個對象的內部狀態，並在該對象之外保存這個狀態。這樣就可以將該對象恢復到原先保存的狀態類型：行為類模式。類圖：我們在編程的時候，經常需要保存對象的中

SparkStreaming（5）：例項-處理socket源資料

1.實現功能： SparkStreaming處理socket源的資料，並進行wordcount的統計。 2.scala程式碼 package Spark import org.apache.spark.SparkConf import org.apache.spark

SparkStreaming（4）：Discretized Streams (DStreams)理解

參考：http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html#discretized-streams-dstreams 1.概念（1）DStreams是一個連續的資料流，可以通過兩種方式產生：資料來源來的輸入

SparkStreaming（8）：windows視窗操作

1.概念在一定的時間間隔（interval）進行一個時間段（window length）內的資料處理。【參考：http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html】 2.核心

SparkStreaming（7）：例項-wordcount統計結果寫入到MySQL

一、功能概述 DStreams的輸出操作，即將DStreams輸出到對應的目的地。輸出操作包括：print、saveAsTextFiles、saveAsObjectFiles、saveAsHadoopFiles、foreachRDD。本例將使用foreachRDD把資料輸出到外部mysql資料庫

SparkStreaming（6）：例項-統計到目前為止累積出現的單詞的個數（updateStateByKey）

1.實現功能現實中，不僅需要統計，當前批次的單詞個數，還需要統計，迄今為止的總的單詞個數。這個就是需要，使用到updateStateByKey運算元。【參考：http://spark.apache.org/docs/2.1.0/streaming-programming-guide.ht

SparkStreaming（5）：例項-SparkStreaming處理本地或者HDFS檔案

1.實現功能： SparkStreaming處理本地或者HDFS檔案，並進行wordcount的統計。 2.前提開啟：（1）hdfs （2）metastore 3.scala程式碼：（1）本地目錄寫法： file:///E:\\Tools\\WorkspaceforM

SparkStreaming（12）：高階資料來源kafka Receiver方式（生產）

1.準備環境（1）啟動zk bin/zkServer.sh start （2）啟動kafka bin/kafka-server-start.sh -daemon config/server.pr

SparkStreaming（11）：高階資料來源flume-pull方式（生產）

1.環境（1）生產環境 flume1.6.0 spark2.1.0 （2）下載對應依賴備註：一定要將依賴都放入flume的Flume’s classpath內，否則flume執行有問題。（遇到過坑~~~） (i) Custom sink JAR: groupId =

SparkStreaming（10）：高階資料來源flume-push方式（生產）

【參考：http://spark.apache.org/docs/2.1.0/streaming-flume-integration.html】 1.環境 spark2.1.0 flume1.6.0 2.flume的配置檔案flume_push_streaming.

SparkStreaming（9）：例項-Streaming整合Spark SQL，進行wordcount功能

1.功能實現綜合Spark Streaming和Spark SQL，進行word count的統計。核心理解DStream和RDD相互操作，需要通過使用foreachRDD這個API。 2.程式碼 package Spark import or

SparkStreaming（14）：log4j日誌-flume-kafka-SparkStreaming的整合

一、功能實現模擬log4j的日誌生產，將日誌輸出到flume伺服器。然後，通過flume將日誌資訊輸出到kafka，進而Streaming可以從kafka獲得日誌，並且進行簡單的處理。二、步驟 1.目的：使用log4j將日誌輸按照一定格式輸出，並且傳遞給flume伺服器特定埠接

SparkStreaming（13）：高階資料來源kafka Direct方式（生產）

【Direct方式，直接從kafka的broker讀取資料，而Receiver方式，從zk獲得偏移量資訊，效能要差一些！】 1.測試環境（1）啟動zk bin/zkServer.sh start （2) 啟動kafka bin/kafka-server-start.sh -da

牛客網線上程式設計（15）：數列還原-python

題目描述牛牛的作業薄上有一個長度為 n 的排列 A，這個排列包含了從1到n的n個數，但是因為一些原因，其中有一些位置（不超過 10 個）看不清了，但是牛牛記得這個數列順序對的數量是 k，順序對是指滿足 i < j 且 A[i] < A[j] 的對數，請幫助牛牛計算出，符合這個要

小朋友學演算法（15）：計算年份的天干地支

十天干：甲、乙、丙、丁、戊、己、庚、辛、壬、癸；十二地支：子、醜、寅、卯、辰、巳、午、未、申、酉、戌、亥。天干地支紀年法首先是天干在前，地支在後，比如今年2018就是戊戌年。天干演算法： 4、5、6、7、8、9、0、1、2、3對應的十天干就是甲、乙、丙、丁、戊、己、庚、辛

SparkStreaming（15）：DStream轉換為RDD的Transform運算元

1.實現功能

2.程式碼

3.測試

（成功~）

相關推薦