SparkStreaming（6）：例項-統計到目前為止累積出現的單詞的個數（updateStateByKey）

阿新 • • 發佈：2018-11-08

1.實現功能

現實中，不僅需要統計，當前批次的單詞個數，還需要統計，迄今為止的總的單詞個數。這個就是需要，使用到updateStateByKey運算元。

【參考：http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html】

2.程式碼

package Spark

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * 使用spark streaming完成迄今為止所有累計單詞的個數
  */
object StatefulWordcount {
  def main(args: Array[String]): Unit = {

    val sparkConf=new SparkConf().setAppName("StatefulWordcount").setMaster("local[2]")

    val ssc=new StreamingContext(sparkConf,Seconds(5))
    //如果使用了stateful的運算元，必須要設定checkpoint
    //在生產過程中，建議把這個放到hdfs上
    //自己沒設定，也沒事
    ssc.checkpoint(".")

    val lines: ReceiverInputDStream[String] =ssc.socketTextStream("bigdata.ibeifeng.com",6789)
    val results: DStream[(String, Int)] =lines.flatMap( _.split(" "))
      .map((_,1))    //.reduceByKey(_+_)

    val state: DStream[(String, Int)] =results.updateStateByKey[Int](updateFunction _)

    state.print()

    ssc.start()
    ssc.awaitTermination()
  }
  //from:http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html
  /**
    * 把當前的資料去更新已有的資料
    * @param CurrentValues 新的的
    * @param PreValues 以前的
    * @return
    */
  def updateFunction(CurrentValues: Seq[Int], PreValues: Option[Int]): Option[Int] = {
    val current = CurrentValues.sum //...  // add the new values with the previous running count to get the new count
    val pre=PreValues.getOrElse(0)
    Some(current+pre)
  }

}

3.測試

(1)啟動nc -lk 6789，輸入測試資料
(2)結果
       (fsd,1)
       (ewrd,1)
       (vsdf,1)
       (,1)

SparkStreaming（6）：例項-統計到目前為止累積出現的單詞的個數（updateStateByKey）

1.實現功能現實中，不僅需要統計，當前批次的單詞個數，還需要統計，迄今為止的總的單詞個數。這個就是需要，使用到updateStateByKey運算元。【參考：http://spark.apache.org/docs/2.1.0/streaming-programming-guide.ht

SparkStreaming（7）：例項-wordcount統計結果寫入到MySQL

一、功能概述 DStreams的輸出操作，即將DStreams輸出到對應的目的地。輸出操作包括：print、saveAsTextFiles、saveAsObjectFiles、saveAsHadoopFiles、foreachRDD。本例將使用foreachRDD把資料輸出到外部mysql資料庫

SparkStreaming（5）：例項-處理socket源資料

1.實現功能： SparkStreaming處理socket源的資料，並進行wordcount的統計。 2.scala程式碼 package Spark import org.apache.spark.SparkConf import org.apache.spark

SparkStreaming（5）：例項-SparkStreaming處理本地或者HDFS檔案

1.實現功能： SparkStreaming處理本地或者HDFS檔案，並進行wordcount的統計。 2.前提開啟：（1）hdfs （2）metastore 3.scala程式碼：（1）本地目錄寫法： file:///E:\\Tools\\WorkspaceforM

SparkStreaming（9）：例項-Streaming整合Spark SQL，進行wordcount功能

1.功能實現綜合Spark Streaming和Spark SQL，進行word count的統計。核心理解DStream和RDD相互操作，需要通過使用foreachRDD這個API。 2.程式碼 package Spark import or

SLS機器學習介紹（01）：時序統計建模

文章系列連結 SLS機器學習介紹（01）：時序統計建模 SLS機器學習介紹（02）：時序聚類建模 SLS機器學習介紹（03）：時序異常檢測建模 SLS機器學習介紹（04）：規則模式挖掘 SLS機器學習最佳實戰：時序異常檢測和報警背景時序資料是業務監控中最多方法，雙十

習題6-8 統計一行文字的單詞個數（15 point(s)）

習題6-8 統計一行文字的單詞個數（15 point(s)）本題目要求編寫程式統計一行字元中單詞的個數。所謂“單詞”是指連續不含空格的字串，各單詞之間用空格分隔，空格數可以是多個。輸入格式: 輸入給出一行字元。輸出格式: 在一行中輸出單詞個數。輸入樣例: Let

資料結構實現 6.1：二叉堆_基於動態陣列實現（C++版）

資料結構實現 6.1：二叉堆_基於動態陣列實現（C++版） 1. 概念及基本框架 1.1 滿二叉樹 1.2 完全二叉樹 2. 基本操作程式實現 2.1 增加操作 2.2 刪除操作 2.3 查詢操作

習題6-8 統計一行文字的單詞個數（15 分）

本題目要求編寫程式統計一行字元中單詞的個數。所謂“單詞”是指連續不含空格的字串，各單詞之間用空格分隔，空格數可以是多個。輸入格式:輸入給出一行字元。輸出格式:在一行中輸出單詞個數。輸入樣例:Let's go to room 209. 輸出樣例:5#include<std

習題6-8 統計一行文字的單詞個數（15 分）

本題目要求編寫程式統計一行字元中單詞的個數。所謂“單詞”是指連續不含空格的字串，各單詞之間用空格分隔，空格數可以是多個。輸入格式: 輸入給出一行字元。輸出格式: 在一行中輸出單詞個數。輸入樣例: Let’s go to room 209. 輸出樣例: 5 #includ

java--封裝一類Java物件，使用者從輸入對話方塊輸入兩個日期，程式將判斷兩個日期的大小關係（比如輸出：您輸入的第二個日期大於第一個日期）以及兩個日期之間的間隔天數（比如輸出：2006年6月6日和

import java.util.*; public class Date { int year; int month; int day; public Date() {

新詞發現（一）：基於統計

1. 什麼是新詞現在大部分的分詞工具已經做到了準確率高、粒度細，但是對於一些新詞（new word）卻不能做到很好地識別，比如：快的打車優惠券英雄聯盟怎麼不可以打排位 “快的”、“英雄聯盟”應該被作為一個詞，卻被切成了兩個詞，失去了原有的語義。未登入詞（out-of-vocabulary, OOV）

R統計筆記（三）：分組統計的幾種方法

1. 使用tapply函式 # INDEX相當於groupBy tapply(salarys$SALARY, INDEX=salarys$SEX, FUN=sum) 如果出現引數的長度不一致的錯誤，如下: Error in tapply(sal

Mapreduce例項---統計單詞個數（wordcount）

一：問題介紹統計每一個單詞在整個資料集中出現的總次數。資料流程：二：需要的jar包 Hadoop-2.4.1\share\hadoop\hdfs\hadoop-hdfs-2.4.1.ja

robot framework rf自動化測試例項（第二篇：處理開機/使用者引導頁--滑動swipe以及click方法）

前言：現在越來越多的應用，在首次安裝或者更新之後都會有一個引導頁，上一節我們講解了如何啟動一個應用，接下來我們講解如何操作引導頁順利進入首頁每篇文章都是使用例項，大家可以一起做，但是練習的時候要多想想，這種操作在哪些地方還有可能用到，該怎麼去用使用工具： adb安裝路徑

RabbitMQ（二）：例項demo

1、Windows下RabbitMQ的安裝下載Erlang，地址：http://www.erlang.org/download/otp_win32_R15B.exe ，雙擊安裝即可（首先裝）下載RabbitMQ，地址：http://www.rabbitmq.com/re

ActiveMQ（22）：Consumer高級特性之消息分組（Message Groups）

jms message groups activemq 一、簡介Message Groups就是對消息分組，它是Exclusive Consumer功能的增強。邏輯上，Message Groups 可以看成是一種並發的Exclusive Consumer。跟所有的消息都由唯一的consumer處理

ActiveMQ（24）：Consumer高級特性之Slow Consumer Handling（慢消費者的處理）

jms activemq slow consumer handling 慢消費者的處理一、Prefetch機制ActiveMQ通過Prefetch機制來提高性能，方式是在客戶端的內存裏可能會緩存一定數量的消息。緩存消息的數量由prefetch limit來控制。當某個consumer的pre

Tomcat啟動分析（轉自：http://docs.huihoo.com/apache/tomcat/heavyz/01-startup.html）

接受 inf ultimate database -a htm ble 配置 https Tomcat啟動分析 1 - Tomcat Server的組成部分 1.1 - Server A Server element represents the entire Catali

Android項目實戰（三十八）：2017最新將AndroidLibrary提交到JCenter倉庫（圖文教程）

success hub rdf fault 用戶 builds style config ocl 我們經常使用github上的開源項目，使用步驟也很簡單比如： compile ‘acffo.xqx.xwaveviewlib:maven:1.0.0‘ 這裏就學習一下如何

SparkStreaming（6）：例項-統計到目前為止累積出現的單詞的個數（updateStateByKey）

1.實現功能

2.程式碼

3.測試

相關推薦