Spark學習筆記：Spark Streaming與Spark SQL協同工作

阿新 • • 發佈：2019-02-19

Spark Streaming與Spark SQL協同工作

Spark Streaming可以和Spark Core，Spark SQL整合在一起使用，這也是它最強大的一個地方。

例項：實時統計搜尋次數大於3次的搜尋詞

package StreamingDemo

import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * Spark Streaming與Spark相結合
  * 需求：實時統計搜尋次數大於3次的搜尋詞
  */
object StreamingAndSQLDemo {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)
    System.setProperty("HADOOP_USER_NAME", "Setsuna")
    val conf = new SparkConf()
      .setAppName(this.getClass.getSimpleName)
      .setMaster("local[2]")
    val ssc = new StreamingContext(conf, Seconds(2))

    //開啟checkpoint
    ssc.checkpoint("hdfs://Hadoop01:9000/checkpoint")

    //分詞，wordcount，記錄狀態
    val resultDStream =
      ssc
        .socketTextStream("Hadoop01", 6666)
        .flatMap(_.split(" "))
        .map((_, 1))
        .updateStateByKey((values: Seq[Int], state: Option[Int]) => {
          var count = state.getOrElse(0)
          for (value <- values) {
            count += value
          }

          Option(count)
        })

    //將wordcount結果存進表裡
    resultDStream.foreachRDD(rdd=>{
      //建立SparkSession物件
      val sparkSession=SparkSession.builder().getOrCreate()
      //建立Row型別的RDD
      val rowRDD=rdd.map(x=>Row(x._1,x._2))
      //建立schema
      val schema=StructType(List(
        StructField("word",StringType,true),
        StructField("count",IntegerType,true)
      ))
      //建立DataFrame，並註冊臨時檢視
      sparkSession.createDataFrame(rowRDD,schema).
        createOrReplaceTempView("wordcount")
      //進行查詢並在Console裡輸出
      sparkSession.sql("select * from wordcount where count>3").show()
    })
    ssc.start()
    ssc.awaitTermination()
  }
}

測試
在nc裡輸入資料

Console裡的輸出

Spark學習筆記：Spark Streaming與Spark SQL協同工作

Spark Streaming與Spark SQL協同工作 Spark Streaming可以和Spark Core，Spark SQL整合在一起使用，這也是它最強大的一個地方。例項：實時統計搜尋次數大於3次的搜尋詞 package StreamingDemo i

Spark學習筆記：DStream基本工作原理

DStream基本工作原理 DStream是Spark Streaming提供的一種高階抽象，英文全稱為Discretized Stream，中文翻譯為離散流，它代表了一個持續不斷的資料流。DStream可以通過輸入資料來源（比如從Flume、Kafka中）來建立，也可以通

Spark學習筆記：基於Socket的實時計算WordCount

基於Socket的實時計算WordCount Socket簡述 Socket（套接字），用來描述IP地址和埠，是通訊鏈的控制代碼，應用程式可以通過Socket向網路傳送請求或者應答網路請求。Socket是支援TCP/IP協議的網路通訊的基本操作單元，是對網路通訊過程中端點

Spark學習筆記：基於HDFS的實時計算WordCount

基於HDFS的實時計算WordCount 基於HDFS檔案的實時計算，其實就是監控一個HDFS目錄，只要有新檔案出現就實時處理 StreamingContext.fileStream(dataDirectory)方法可以從多種檔案系統的檔案中讀取資料，然後建立一個DStre

Spark學習筆記：輸入DStream和Receiver詳解

輸入DStream和Receiver詳解輸入DStream代表了來自資料來源的輸入資料流，除了檔案資料流之外，所有的輸入DStream都會繫結一個Receiver物件，Receiver用於接收資料，然後將資料儲存在Spark的記憶體中，以供後續的操作使用。 SparkS

Spark學習筆記：初識Spark

=。= // 將users中的vertex屬性新增到graph中，生成graph2 // 使用joinVertices操作，用user中的屬性替換圖中對應Id的屬性 // 先將圖中的頂點屬

Spark學習筆記：四、WordCount字頻統計入門程式（基於IntelliJ IDEA使用Scala+SBT）

一、環境準備： Ubuntu16.04 IDEA Ultimate(破解版、教育版) Java JDK 1.8 Hadoop2.7 (偽單機模式) Spark 2.1.0 Hadoop與Spark的安裝過程本文省略二、IDEA + SBT

蝸龍徒行-Spark學習筆記【一】初識Spark形成、演進、發展

【一】Hadoop版本演進過程由於Hadoop1.X 以前版本在 MapReduce 基本構架的設計上存在作業主控節點(JobTracker)單點瓶頸、作業執行延遲過長、程式設計框架不靈活等較多的缺陷和不足,2011 年 10 月,Hadoop 推出

SpringMVC學習筆記：單例與並發問題

一個獲得 app parseint 本地服務屬性 als min c學習 Spring中的Bean默認都是單例（singleton），Spring中Bean的scope屬性有五種類型： singleton 表示在spring容器中的單例，通過spring容器獲得該be

Java學習筆記：C/S 與B/S 區別！

C/S 是Client/Server 的縮寫，是客戶機與伺服器結構的應用程式；B/S是Brower/Server 的縮寫，是瀏覽器和伺服器結構的應用程式，即Web 應用程式。C/S 與B/S 區別如下： 1)硬體環境不同: C/S 一般建立在專用的網路上, 小範圍裡的網路環境, 區域網

#Java學習筆記：C/S 與B/S 區別！

C/S 是Client/Server 的縮寫，是客戶機與伺服器結構的應用程式；B/S是Brower/Server 的縮寫，是瀏覽器和伺服器結構的應用程式，即Web 應用程式。C/S 與B/S 區別如下：如果有想要學習java的小夥伴，可來我們的java學習扣裙

學習筆記：inception V4 與resnet

原始的Inception模型，也就是GoogLeNet被稱為Inception-v1，加入batch normalization之後被稱為Inception-v2，加入factorization的idea之後，改進為Inception-v3。然後發現ResNet的結構可以加

MATLAB學習筆記：數列求和與級數

數列求和命令一：sum(x) 例1： x為向量： >> a=[1 2 3] a = 1 2 3 >> sum(a) ans = 6 例2： x為矩陣： >> b=[1 2 3;4

Spark學習筆記4：數據讀取與保存

讀取數據 chapter byte hadoop tar .lib 文件中 api sequence Spark對很多種文件格式的讀取和保存方式都很簡單。Spark會根據文件擴展名選擇對應的處理方式。 Spark支持的一些常見文件格式如下：　1、文本文件　　　使用文件

SODBASE CEP學習進階篇（七）續：SODBASE CEP與Spark streaming整合-低延遲規則管理與分散式快取整合

在實際大資料工作中，常常有實時監測資料庫變化或實時同步資料到大資料儲存，解決大資料實時分析的需求。同時，增量同步資料庫資料相比全量查詢也減少了網路頻寬消耗。本文以Mysql的bin-log到Kafka為例，使用Canal Server，通過SODBASE引擎不用寫程式就可以設定資料同步規則。

SODBASE CEP學習進階篇（七）續：SODBASE CEP與Spark streaming整合-低延遲規則管理

許多大資料平臺專案採用流式計算來處理實時資料，會涉及到一個環節：處理規則管理。因為使用者經常有自己配置資料處理規則或策略的需求。同時，維護人員來也有也有將規則提取出來的需求，方便變更和維護的需求。我們知道Spark streaming作為資料歸檔備份時吞吐量高，與Hadoo

Spark學習筆記3：鍵值對操作

對象常用 ava java 參數通過頁面 ascend 處理過程鍵值對RDD通常用來進行聚合計算，Spark為包含鍵值對類型的RDD提供了一些專有的操作。這些RDD被稱為pair RDD。pair RDD提供了並行操作各個鍵或跨節點重新進行數據分組的操作接口。 Sp

Spark 學習筆記之 Standalone與Yarn啟動和運行時間測試

span ima 上傳運行 yarn erl 技術分享 word wordcount Standalone與Yarn啟動和運行時間測試：寫一個簡單的wordcount：打包上傳運行： Standalone啟動：運行時間：

Spark 學習筆記之 Streaming Window

min .cn spa pan tex def rec mas clas Streaming Window: 上圖意思：每隔2秒統計前3秒的數據 slideDuration: 2 windowDuration: 3 例子: import org.apach

Spark學習筆記（16）——Spark Streaming 整合Kafka

1 啟動 zk(zookeeper-3.4.8) 三個節點同時操作 zkServer.sh start 2 啟動 Kafka 三個節點同時操作 kafka-server-start.sh /home/hadoop/apps/kafka_2.10-0.8.2.1/conf

Spark學習筆記：Spark Streaming與Spark SQL協同工作

Spark Streaming與Spark SQL協同工作

例項：實時統計搜尋次數大於3次的搜尋詞

相關推薦