WordCount程序【Spark Streaming版本】

阿新 • • 發佈：2019-02-27

context 電腦更多 ring 需要 -s 文件系統 cas key

前置

~~
Spark Streaming 常常對接：本地文件、HDFS、端口、flume、kafka

package february.streaming

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  *              ====   Spark Streaming可以監聽本地文件、HDFS、端口、flume、kafka  =====
  *
  *
  * Description:  使用Spark Streaming處理文件系統(local/hdfs)的數據
  * 通過 SparkStreaming 來實現WordCount
  * Spark Streaming
  *
  * 提交代碼
  * spark-submit --master spark://spark001:7077 --deploy-mode client --class february.streaming.SparkStreamingWordCount /home/liuge36/jars/SparkDayDemo.jar
  *
  * @Author: 留歌36
  * @Date: 2019/2/21 17:27
  */
object SparkStreamingWordCount {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf()
      .setMaster("local[2]") //local[2] 或local也都可以
      .setAppName(this.getClass.getSimpleName)

    //拿到StreamingContext 這個上下文對象
    val ssc = new StreamingContext(sparkConf, Seconds(5))

    // 讀取Windows 10電腦上的文件目錄,沒有成功，可能是因為moving的原因吧
//    val input = ssc.textFileStream("file:///f:\\tmp")

    // 讀取centos local  從源碼中也可以看出，需要移動文件到指定目錄下，才能檢測到
    val input = ssc.textFileStream("file:///home/liuge36/feb/")

    // 讀取Linux服務器的文件目錄
//    val lines = ssc.textFileStream("file:///")

    val lines = input.flatMap(line => line.split(","))

    val count = lines.map(word => (word, 1)).reduceByKey{case (x, y)=> x+y }

    // 輸出結果
    println("==================華麗分割線開始============================")
    count.print()

    //啟動主程序，
    ssc.start()
    //阻塞 等待主程序被關閉
    ssc.awaitTermination()
  }

}

更多相關小demo：每天一個程序：https://blog.csdn.net/liuge36/column/info/34094

WordCount程序【Spark Streaming版本】

context 電腦更多 ring 需要 -s 文件系統 cas key ~~ 前置 ~~ Spark Streaming 常常對接：本地文件、HDFS、端口、flume、kafka package february.streaming import org.apac

【JEECG-Mybatis版本】springmvc+mybatis+程式碼生成器（程式碼一鍵生成）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Spark2.2.0叢集搭建部署之【SPARK叢集篇】

軟體準備資訊，詳見Spark2.2.0叢集搭建部署之【軟體準備篇】基礎配置資訊，詳見Spark2.2.0叢集搭建部署之【基礎配置篇】 SSH無密訪問，詳見park2.2.0叢集搭建部署之【無密訪問篇】 HADOOP叢集，詳見Spark2.2.0叢集搭建部署之【HADOOP叢集篇】

【Spark核心原始碼】SparkContext一些方法的解讀

目錄建立SchedulerBackend的TaskScheduler方法設定並啟動事件匯流排釋出環境更新的方法釋出應用程式系統的方法在【Spark核心原始碼】SparkContext中的元件和初始化已經介紹了Spark初始化時是如何執行的，都建立了哪些元件。這些元

【Spark核心原始碼】SparkContext中的元件和初始化

目錄 SparkContext概述 SparkContext元件概述 SparkContext初始化過程第一步：確保當前執行緒中沒有SparkContext在執行第二步：版本反饋第三步：真正的初始化第四步：確認啟動成功 SparkContext概述在

【Spark核心原始碼】事件匯流排ListenerBus

目錄訊息匯流排ListenerBus 非同步事件處理LiveListenerBus 增加事件 listenerThread處理事件訊息匯流排ListenerBus org.apache.spark.util.ListenerBus處理來自DAGScheduler、Sp

【Spark核心原始碼】內建的RPC框架，Spark的通訊兵（二）

目錄 RPC管道處理TransportChannelHandler RPC服務端處理RpcHandler 載入程式Bootstrap RPC客戶端TransportClient 總結接著【Spark核心原始碼】內建的RPC框架，Spark的通訊兵（一）接著分析 R

【Spark核心原始碼】內建的RPC框架，Spark的通訊兵（一）

目錄 RPC上下文TransportContext RPC配置TransportConf RPC客戶端工廠TransprotClientFactory RPC服務端TransportServer 作為一個分散式計算引擎，既然是分散式，那麼網路通訊是肯定少不了的，在Spark中

【Spark核心原始碼】SparkConf，Spark的配置管控

目錄概述從系統中獲取並設定配置資訊使用SparkConf提供的方法設定配置資訊通過克隆的方式設定配置資訊總結概述 SparkConf，以KEY-VALUE對的形式設定Spark的配置引數。我們編寫Spark應用程式時，也會先建立SparkCon

【Spark核心原始碼】Spark基本概念及特點

目錄 Hadoop MapReduce的不足 Spark的基本概念 RDD DAG Partition NarrowDependency ShuffleDependency Job Stage Task Shuffle Spark的基本元件 Clu

【Spark核心原始碼】解析“spark-shell”（二）

接著【初探Spark核心】解析“spark-shell”（一）來看根據main的執行日誌來看，我們直接看一下org.apache.spark.repl.Main.main方法： main方法中建立了SparkILoop物件，作為引數傳遞給了doMain方法，並呼叫了doMain

【Spark核心原始碼】Spark原始碼環境搭建

目錄準備條件下載spark原始碼，並解壓開啟spark原始碼下的pom.xml檔案，修改對應的java和intellij裡的maven版本開啟intellij，Inport Project，將原始碼匯入intellij中問題總結（十分重要） Maven編譯打包前的準

【Spark核心原始碼】解析“spark-shell”（一）

目錄指令碼分析遠端監控之前使用spark-shell，編寫了一個word count程程式【初探Spark核心】Word Count程式的簡單分析，spark-shell究竟都為我們做了些什麼，下面就好好分析一下。指令碼分析當我們輸入指令“spark-shell”

【Spark核心原始碼】Word Count程式的簡單分析

目錄啟動Spark Shell 日誌級別的設定解析word count程式第0步：設定日誌級別（“可選”）第1步：讀取檔案第2步：將每行的內容根據空格進行拆分成單詞第3步：設定每一個單詞的計數為1 第4步：單詞根據Key進行計數值累加聚合第5步：輸出

selenium 執行鍵盤操作【node.js版本】

selenium 執行鍵盤操作來源【51dali資料分享網】完整node.js+selenium的api請看: http://www.51dali.cn/zidonghuaceshiwenzhang/47.html 第一步：const actions = d

【SpringCloud Greenwich版本】第九章鏈路追蹤（Sleuth）

一、SpringCloud版本本文介紹的Springboot版本為2.1.1.RELEASE,SpringCloud版本為Greenwich.RC1，JDK版本為1.8，整合環境為IntelliJ IDEA 二、Spring Cloud Sleuth介紹 Spring Clou

【SpringCloud Greenwich版本】目錄

一、SpringCloud簡介 Spring Cloud為開發人員提供了快速構建分散式系統中一些常見模式的工具（例如配置管理，服務發現，斷路器，智慧路由，微代理，控制匯流排）。分散式系統的協調導致了樣板模式, 使用Spring Cloud開發人員可以快速地支援實現這些模式的服務和應用程式

【SpringCloud Greenwich版本】第八章：配置中心客戶端（config client）

一、SpringCloud版本本文介紹的Springboot版本為2.1.1.RELEASE,SpringCloud版本為Greenwich.RC1，JDK版本為1.8，整合環境為IntelliJ IDEA 二、config client介紹 Spring Boot應用程式可以

【SpringCloud Greenwich版本】第七章：配置中心服務端（config server）

一、SpringCloud版本本文介紹的Springboot版本為2.1.1.RELEASE,SpringCloud版本為Greenwich.RC1，JDK版本為1.8，整合環境為IntelliJ IDEA 二、config server介紹 Spring Cloud Conf

【SpringCloud Greenwich版本】第二章：服務提供者（eureka）

一、SpringCloud版本本文介紹的Springboot版本為2.1.1.RELEASE,SpringCloud版本為Greenwich.RC1，JDK版本為1.8，整合環境為IntelliJ IDEA 二、Eureka客戶端介紹服務發現是基於微服務架構的關鍵原則之一。嘗

WordCount程序【Spark Streaming版本】

前置

相關推薦