SparkStreaming（二）入門案例

阿新 • • 發佈：2019-01-04

2、入門案例

2.1、計算單詞的數量

Java版本jdk.1.8以下：

public class WordCountOnline {
	public static void main(String[] args) throws InterruptedException {
		SparkConf conf = new SparkConf();
		/*
		 * 1、配置應用名稱以及配置兩個執行緒（注意要大於等於兩個執行緒）
		 */
		conf.setAppName("WordCountOnline").setMaster("local[2]");
		
		/*
		 *2、 建立SparkStreamingContext
		 * 	可以基於SparkConf引數，也可以基於持久化的SparkStreamingContext進行狀態恢復。
		 * 	典型的場景是Driver崩潰後由於SparkStreaming具有連續不斷的24小時不間斷的執行，所以需要再Driver
		 * 	重現啟動後從上次執行的狀態恢復過來，此時的狀態需要基於曾經的CheckPoint。
		 */
		 JavaStreamingContext jssc = new JavaStreamingContext(conf,Durations.seconds(1));
	
		 /*
		  * 3、建立SparkStreaming輸入資料來源
		  * 	a.資料輸入來源可以基於File，HDFS，Flume，Kafka，Socket等。
		  * 	b.在這裡我們指定資料來源於網路Socket埠，SparkStreaming連線上該埠，並在執行的時候一直監聽該埠的資料，
		  * 		並且後續根據業務需要不斷的有資料產生。
		  * 	c.如果經常在每隔5秒沒有資料就不斷啟動空的job其實是對資源的浪費，因為沒有接受到資料，仍然提交了job。
		  * 		實際的做法是提交job會判斷是否有資料，如果沒有的話就不再提交job。
		  */
		 JavaReceiverInputDStream<String> lines = jssc.socketTextStream("local", 9999);
		 
		 /*
		  * 4、我們就像對RDD程式設計一樣，基於DStream進行程式設計，原因是DStream是RDD產生的模板，在SparkStreaming發生計算之前，其實質
		  * 	是把每個Batch的DStream的操作翻譯成為了RDD操作
		  */
		 
		 //4.1、faltMap操作：將遍歷每一行，並且將每一行分割單詞返回String的Iterator
		JavaDStream<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
			private static final long serialVersionUID = 1L;

			@Override
			public Iterable<String> call(String line) throws Exception {
				return Arrays.asList(line.split(","));
			}
		});
		
		//4.2、mapToPair操作：將每個單詞計數標記為1
		 JavaPairDStream<String, Integer> pairs = words.mapToPair(new PairFunction<String, String, Integer>() {

			@Override
			public Tuple2<String, Integer> call(String word) throws Exception {
				return new Tuple2<String, Integer>(word, 1);
			}
		});
		 
		//4.3、reduceByKey操作：將每個相同單詞的計數標記1相加
		JavaPairDStream<String, Integer> word_count = pairs.reduceByKey(new Function2<Integer, Integer, Integer>() {
			@Override
			public Integer call(Integer v1, Integer v2) throws Exception {
				return v1 + v2;
			}
		});
	
		/*
		 * 4.4、print操作：此處的print方法並不會觸發job執行，因為目前程式碼還處於SparkStreaming框架的控制之下，
		 * 	具體是否觸發時取決於設定的Duration時間的間隔。
		 */
		word_count.print();
		
		/*
		 * 5、開始計算：SparkStreaming引擎開始執行，也就是Driver開始執行，Driver啟動時位於一條執行緒中，
		 * 	當然內部當然還有訊息迴圈體，接收應用程式本身或者Executor傳送過來的訊息。
		 */
		jssc.start();
		
		//6、等待程式執行結束
		jssc.awaitTermination();
	}
}

Java版本jdk1.8：可以使用lambda表示式簡化程式碼：

public class WordCount {
	public static void main(String[] args) throws InterruptedException {
		//1、建立一個帶有兩個執行執行緒的本地StreamingContext，並且設定流資料每批的間隔為1秒
		/**
		 * appName引數是應用程式在叢集UI上顯示的名稱。
		 * master是Spark，Mesos或YARN叢集URL，或者是在本地模式下執行的特殊"local[*]"字串。
		 * 實際上，當在叢集上執行時，不希望在程式中對master進行硬編碼，而是使用spark-submit啟動應用程式並在那裡接收它。
		 * 但是，對於本地測試和單元測試，您可以傳遞"local[*]"以在程序中執行Spark Streaming。
		 * 請注意，這會在內部建立一個JavaSparkContext（所有Spark功能的起點），可以作為ssc.sparkContext訪問。
		 */
		SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount");
		JavaStreamingContext jssc = new JavaStreamingContext(conf,Durations.seconds(1));
		
		/**
		 * 定義上下文後，需要執行以下操作：
		 * 	1.通過建立輸入DStreams來定義輸入源
		 * 	2.通過將轉換和輸出操作應用於DStream來定義流式計算。
		 * 	3.開始接收資料並使用streamingContext.start()處理它。
		 * 	4.等待使用streamingContext.awaitTermination()停止處理（手動或由於任何錯誤）。
		 * 	5.可以使用streamingContext.stop()手動停止處理。
		 * 要記住的要點：
		 *  1.一旦啟動了上下文，就不能設定或新增新的流式計算。
		 *  2.上下文停止後，無法重新啟動。
		 *  3.在JVM中只能同時啟用一個StreamingContext。
		 *  4.StreamingContext上的stop()也會停止SparkContext。要僅停止StreamingContext，請將名為stopSparkContext的stop（）的可選引數設定為false。
		 *  5.只要在建立下一個StreamingContext之前停止前一個StreamingContext（不停止SparkContext），就可以重複使用SparkContext來建立多個StreamingContexts。
		 */
		//2、使用此context，我們可以建立一個DStream，它表示來自特定主機名（例如localhost）和埠（例如9999）TCP源的流資料。
		JavaReceiverInputDStream<String> lines = jssc.socketTextStream("localhost", 9999);
		//3、將每行文字以空格符切分成一個個單詞
		JavaDStream<String> words = lines.flatMap(x -> Arrays.asList(x.split(" ")).iterator());
		//4、計算每批單詞的數量
		JavaPairDStream<String, Integer> pairs = words.mapToPair(s -> new Tuple2<>(s, 1));
		JavaPairDStream<String, Integer> wordCounts = pairs.reduceByKey((i1,i2) -> i1 + i2);
		wordCounts.print();
		//5、開始計算
		jssc.start();
		//6、等待計算終止
		jssc.awaitTermination();
	}
}

2.2、流式篩選並打印出包含”error”的行

public class WordFilter {
	public static void main(String[] args) throws InterruptedException {
		//建立一個Java版本的Spark Context 
		SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("WordFilter");
		//從SparkConf建立StreamingContext並指定1秒鐘的批處理大小
		JavaStreamingContext jssc = new JavaStreamingContext(conf,Durations.seconds(1));
		//以埠7777作為輸入來源建立DStream
		JavaReceiverInputDStream<String> lines = jssc.socketTextStream("localhost", 7777);
		//從DStream中篩選出包含字串"error"的行
		JavaDStream<String> errorLines = lines.filter(new Function<String,Boolean>(){
			@Override
			public Boolean call(String line) throws Exception {
				return line.contains("error");
			}
		});
		//打印出有"error"的行
		errorLines.print();
		//啟動流計算環境StreamingContext並等待它"完成"
		jssc.start();
		//等待作業完成
		jssc.awaitTermination();
	}
}

SparkStreaming（二）入門案例

2、入門案例 2.1、計算單詞的數量 Java版本jdk.1.8以下： public class WordCountOnline { public static void main(String[] args) throws InterruptedException { Spark

ajax入門學習（二）小案例Demo1

1、準備工作因為AJAX也需要請求伺服器，非同步請求也是請求伺服器，所以我們需要先寫好伺服器端程式碼，即編寫一個Servlet！這裡，Servlet很簡單，只需要輸出“HelloAJAX!”。publi

mybatis 詳解（二）------入門實例（基於XML）

ssi 開發模式文件中 Coding import 拼接 upd baidu actor 　　通過上一小節，mybatis 和 jdbc 的區別：http://www.cnblogs.com/ysocean/p/7271600.html，我們對 mybatis有了一個大致

JavaScriptDOM編程學習筆記（二）圖片庫案例

AS demo 其他展示 www sna aps 新元素著名《JavascriptDOM編程藝術》提供一個圖片庫的demo，主要講解如何更好的使用JavaScript在網頁中，跟隨作者的思路來分析一下這個案例首先需求是將圖片發布到網上，但是如果發布的圖片比較多，那麽

chrome外掛開發（二）入門篇（content script

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Pilosa文件翻譯（二）入門指南

目錄開始 Pilosa 簡單專案建立架構(Create the Schema) 從CVS檔案匯入資料做一些查詢(Queries) 接下來做什麼? Pilosa支援預設使用JSON的HTTP介面。任何HTTP工具都可用於與Pilosa伺服器進行互動。本文件中的示例將使

憤怒的WebAPI（二）——事件案例

1、開關燈 <button id="btn">關燈</button> <script> // 1 獲取元素 var btn = document.getElementById('btn'); var flag

《Spring Boot官方指南》（二）入門

4.5 建立可執行jar檔案就像生產一個真正的軟體產品，我們建立一個完整自足的可執行jar檔案，把我們的第一個例項完成。可執行的jar檔案（有時候我們也叫“富jar檔案”）是一個歸檔檔案，包含了編譯好的類檔案與我們執行程式所需要的所有jar依賴項。可執行jar檔案與Java J

Scala學習（二）---入門基礎知識

元組使用：元組List一樣而是不能改變的結構，但是元組內每個元素的型別可以不同，List也可以但是List是推斷為any，而Tuple推斷為各個元素的型別。元組的作用一般為在方法裡返回對個物件，元組

五、學習爬蟲框架WebMagic（一）---入門案例

一、WebMagic簡介參見網上其他介紹。二、新增依賴  <dependency> <groupId>us.codecraft</groupId> <artif

Mybaits深入瞭解（二）—-入門例項

Mybatis CRUD例項例項的開發環境 java環境開發工具資料庫 jdk1.7 myeclipse mysql 專案的目錄結構 log4j.prop

基於tensorflow的MNIST手寫數字識別（二）--入門篇

一、本文的意義因為谷歌官方其實已經寫了MNIST入門和深入兩篇教程了，那我寫這些文章又是為什麼呢，只是抄襲？那倒並不是，更準確的說應該是筆記吧，然後用更通俗的語言來解釋，並且補充

Mybatis學習筆記（二）--入門程式

1.下載Mybatis包 mybaits的程式碼由github.com管理下載地址：https://github.com/mybatis/mybatis-3/releases 選擇對應的版本下載下載後解壓mybatis後 2.環境搭建 2.1 建立工程

Hibernate學習（2）入門案例

上篇部落格已經把Hibernate概念和其中的核心介面介紹，下面舉個例項新增使用者來介紹Hibernate如何使用。 1、匯入jar檔案匯入antlr-2.7.6.jar 匯入commons

【工作筆記】ElasticSearch從零開始學（二）—— 入門（搜尋）

建立一個員工目錄假設我們剛好在Megacorp工作，這時人力資源部門出於某種目的需要讓我們建立一個員工目錄，這個目錄用於促進人文關懷和用於實時協同工作，所以它有以下不同的需求資料能夠包含多個值的標籤、數字和純文字。檢索任何員工的所有資訊。支援結構化

（數字IC）低功耗設計入門（二）——功耗的分析

layout 變化監視 merge obj source divide 傳播總結　　前面學習了進行低功耗的目的個功耗的構成，今天就來分享一下功耗的分析。由於是面向數字IC前端設計的學習，所以這裏的功耗分析是基於DC中的power compiler工具；更精確的功耗分析

Asp.Net Core WebAPI入門整理（二）簡單示例

序列 open exc tor pda template ssa net found 一、Core WebAPI中的序列化使用的是Newtonsoft.Json,自定義全局配置處理： // This method gets called by the runtime.

sed正則經典案例（二）

sed正則sed正則經典案例（二） ###修改登記信息格式已知文本內容如下：[[email protected]/* */ oldboy]# cat 2.txt 張三--1995/04/12--186-1233-4324--5004132131231231231 李四--1993/05/20

Struts2入門介紹（二）

輸入 clu ons dom 訪問路徑訪問 filter pri locale 一、Struts執行過程的分析。　　當我們在瀏覽器中輸入了網址http://127.0.0.1:8080/Struts2_01/hello.action的時候，Struts2做了如下過程：

Python入門系列教程（二）

字符小寫無符號 bsp div width raw_input abc body 字符串 1.字符串輸出 name = ‘xiaoming‘ print("姓名：%s"%name) 2.字符串輸入 userName = raw_input(‘請輸

SparkStreaming（二）入門案例

2、入門案例

2.1、計算單詞的數量

2.2、流式篩選並打印出包含”error”的行

相關推薦