Spark學習筆記（14）——Spark Streaming 資料累加的案例

阿新 • • 發佈：2018-11-06

1 原始碼

package mystreaming

import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object AccWordcount {


  /*
  * (hello,1),(hello,1),(tom,1)
  * (hello,Seq(1,1)),(tom,Seq(1))
  * Option[Int],以前的結果
  * Seq 這個批次某個單詞的次數
  * 

  * */
  val func = (iter: Iterator[(String, Seq[Int], Option[Int])]) => {

    //iter.map{case(word,current_count,history_count) => (word,current_count.sum + history_count.getOrElse(0)) }
    //iter.map(t=>(t._1,t._2.sum + t._3.getOrElse(0)))
    //iter.flatMap(it=>Some(it._2.sum + it._3.getOrElse( 
0)).map(x=>(it._1,x)))
    iter.flatMap { case (x, y, z) => Some(y.sum + z.getOrElse(0)).map(m => (x, m)) }

  }


  def main(args: Array[String]): Unit = {
    LoggerLevels.setStreamingLogLevels()

    val conf = new SparkConf().setAppName("AccWordCount").setMaster("local[2]")
    val sc = new SparkContext( 
conf)
    val ssc = new StreamingContext(sc, Seconds(5))


    /*
    * updateStateByKey 必須設定 checkpoint
    * */
    sc.setCheckpointDir("d://checkpoint")

    //接收資料
    val ds = ssc.socketTextStream("node1", 8888)
    //DStream 是一個特殊的 RDD
    val result = ds.flatMap(_.split(" ")).map((_, 1)).updateStateByKey(func,new HashPartitioner(sc.defaultParallelism),true)

    result.print()

    ssc.start()

    ssc.awaitTermination()
  }
}

2 測試

在這裡插入圖片描述

Spark學習筆記（14）——Spark Streaming 資料累加的案例

1 原始碼 package mystreaming import org.apache.spark.{HashPartitioner, SparkConf, SparkContext} import org.apache.spark.streaming.{Seconds, Stre

Spark學習筆記（16）——Spark Streaming 整合Kafka

1 啟動 zk(zookeeper-3.4.8) 三個節點同時操作 zkServer.sh start 2 啟動 Kafka 三個節點同時操作 kafka-server-start.sh /home/hadoop/apps/kafka_2.10-0.8.2.1/conf

Spark學習筆記（15）——Spark Streaming 整合 Flume

1 flume 配置檔案在 flume-env.sh 裡配置 JAVA_HOME 1.1 flume-pull.conf # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.chan

Spark學習筆記（13）——Spark Streaming 案例

1 Spark Streaming 介紹 Spark Streaming類似於Apache Storm，用於流式資料的處理。根據其官方文件介紹，Spark Streaming有高吞吐量和容錯能力強等特點。Spark Streaming支援的資料輸入源很多，例如：Kafka、Flume

大資料實時計算Spark學習筆記（11）—— Spark Streaming

1 Spark Streaming spark core 的擴充套件，針對實時資料處理，具有可擴充套件、高吞吐、容錯；內部，spark 接受實時資料流，分成 batch 進行處理，最終在每個 batch 產生結果； 1.1 discretized strea

Spark學習筆記（18）Spark Streaming中空RDD處理

本期內容： 1 Spark Streaming中的空RDD處理 2 Spark Streaming程式的停止 1 Spark Streaming中的空RDD處理在Spark Streaming應用程式中，無論使用什麼 DStream，底層實際上就是操作RDD。從一

Spark學習筆記（三）-Spark Streaming

Spark Streaming支援實時資料流的可擴充套件（scalable）、高吞吐（high-throughput）、容錯（fault-tolerant）的流處理（stream processing）。 &n

Spark學習筆記（1）—— Spark 介紹，叢集安裝

1 Spark 介紹 Spark是一種快速、通用、可擴充套件的大資料分析引擎，2009年誕生於加州大學伯克利分校AMPLab，2010年開源，2013年6月成為Apache孵化專案，2014年2月成為Apache頂級專案。目前，Spark生態系統已經發展成為一個

Spark學習筆記（3）—— Spark計算模型 RDD

1 彈性分散式資料集RDD 1.1 什麼是 RDD RDD（Resilient Distributed Dataset）叫做分散式資料集，是Spark中最基本的資料抽象，它代表一個不可變、可分割槽、裡面的元素可平行計算的集合。RDD具有資料流模型的特點：自動容錯

Spark學習筆記（9）—— Spark IP位置查詢

1 資料來源 ip.txt 1.0.1.0|1.0.3.255|16777472|16778239|亞洲|中國|福建|福州||電信|350100|China|CN|119.306239|26.07530

Spark學習筆記（一）——spark簡介

Spark是什麼 spark是基於記憶體計算的大資料平行計算框架。09年誕生於加州大學伯克利分校AMPLab. Spark相較於Hadoop的優點 Spark是MapReduce的替代方案，相容HDFS、Hive等分散式儲存層，可融入Hadoop的生態

spark學習筆記（3）spark核心資料結構RDD

一個簡單的例子 /* SimpleApp.scala */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.Spar

Spark學習筆記（19）—— 遊戲日誌分析

1 資料 0 管理員登入 1 首次登入 2 上線 3 下線 1|2016年2月1日,星期一,10:01:08|10.51.4.168|李明剋星|法師|男|1|0|0/800000000 1|2016年2月1日,星期一,10:01:12|10.117.45.20|風道|道士|男

Spark學習筆記（18）—— Elasticsearch 安裝

1 解壓 [[email protected] ~]$ ll total 42708 drwxrwxr-x. 9 hadoop hadoop 180 Oct 24 21:33 apps -rw-r--r--. 1 hadoop hadoop 27540442 Ju

Spark學習筆記（17）——窗戶函式

1 原始碼 package window import mystreaming.LoggerLevels import org.apache.spark.SparkConf import org.apache.spark.streaming.{Milliseconds, Secon

Spark學習筆記（6）—— 網站訪問次數統計

1 資料檔案 20160321101954 http://java.itcast.cn/java/course/javaeeadvanced.shtml 20160321101954 http://ja

Spark學習筆記（10）—— wordcount 執行流程分析

1 啟動叢集啟動 HDFS start-dfs.sh 啟動 Spark 叢集 /home/hadoop/apps/spark-1.6.3-bin-hadoop2.6/sbin/start-all

大資料實時計算Spark學習筆記（7）—— RDD 資料傾斜處理

1 處理資料傾斜在 reduceByKey 之前先進行隨機分割槽 package com.bigdataSpark.cn import org.apache.spark.{SparkConf, SparkContext} import scala.util.Ran

大資料實時計算Spark學習筆記（10）—— Spar SQL(2) -JDBC方式操作表

1 Spark SQL 的 JDBC 方式 POM 檔案新增依賴 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connect

大資料實時計算Spark學習筆記（9）—— Spar SQL(1) 讀取 json 檔案

1 Spark SQL 程式設計方式：（1）SQL;(2) DataFrame API scala> case class Customer(id:Int,name:String,age:Int) defined class Customer scala&g

Spark學習筆記（14）——Spark Streaming 資料累加的案例

1 原始碼

2 測試

相關推薦