將Flink中的批處理的WordCount轉化為流處理的WordCount

阿新 • • 發佈：2019-01-01

將Flink中的批處理的WordCount轉化為流處理的WordCount

目的：將Flink中批處理的WordCount轉化為流處理的WordCount
作用：感覺毫無用處
如何實現：將批的environmentBatch中的各個運算元，在流的environmentStream中重寫一遍

程式碼如下：

package org.apache.flink.examples.java.maqy;
/**
 * 實現Flink中Batch的WordCount到流的WordCount的轉換
 * 注意：流的WordCount相同的邏輯，每到來一個新元素都會進行一次輸出，所以輸出結果會不同
 *
 * Flink版本：1.4.2
 * @author maqy
 * @date 2018.08.11
 */

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.io.InputFormat;
import org.apache.flink.api.common.io.OutputFormat;
import org.apache.flink.api.common.operators.Keys;
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.aggregation.AggregationFunction;
import org.apache.flink.api.java.aggregation.SumAggregationFunction;
import org.apache.flink.api.java.io.TextInputFormat;
import org.apache.flink.api.java.io.TextOutputFormat;
import org.apache.flink.api.java.operators.*;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.tuple.Tuple3;
import org.apache.flink.core.fs.Path;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;

import java.util.List;

public class BatchToStream {

	public static void main(String[] args) throws Exception {

		// set up the execution environment
		final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

		env.setParallelism(1);
		// get input data
//		DataSet<String> text = env.fromElements(
//				"To be, or not to be,--that is the question:--",
//				"Whether 'tis nobler in the mind to suffer",
//				"The slings and arrows of outrageous fortune",
//				"Or to take arms against a sea of troubles,"
//				);
		//輸入檔案
		DataSet<String> a = env.readTextFile("F:\\test.txt");

		DataSet<Tuple2<String, Integer>> b = a.flatMap(new LineSplitter());

		//DataSet<Tuple2<String, Integer>> d = b.sum(1);
		DataSet<Tuple2<String, Integer>> c = b.groupBy(0)
			.sum(1);
		//sink必須單獨寫？？？？，放在上一行後頭會報錯,原因是因為返回的是datasink型別
		c.writeAsText("F:\\output\\batchToStream");

//		DataSet<Tuple2<String, Integer>> counts = env.readTextFile("/home/maqy/桌面/out/test")
//				// split up the lines in pairs (2-tuples) containing: (word,1)
//				.flatMap(new LineSplitter())
//				// group by the tuple field "0" and sum up tuple field "1"
//				.groupBy(0)
//				.sum(1);
//
//		// execute and print result
//		counts.writeAsText("/home/maqy/桌面/out/out1");

		StreamExecutionEnvironment envStream = batchToStream(env);
		//執行程式的是流的Environment
		//env.execute("batch job~~~~~~~~~~~~~~");
		envStream.execute("StreamJob~~~~~~~~~~~~~");

	}

	//實現批的環境到流的環境的轉換,傳入envBatch，返回StreamExecutionEnvironment
	public static StreamExecutionEnvironment batchToStream(ExecutionEnvironment envBatch) throws Exception {
		//建立一個新的流環境，用於返回的
		StreamExecutionEnvironment envStream = StreamExecutionEnvironment.getExecutionEnvironment();
		//設定並行度只能在這裡設定，不然沒用
		envStream.setParallelism(1);

		//這裡考慮下用DataSet 還是用 Environment,得到環境中的sinks
		List<DataSink<?>> batchSinks = envBatch.getSinks();

		for (DataSink dataSink : batchSinks) {
			//先定義一個數據流
			DataStream first = null;
			//對每個sink進行操作，找到源頭？
			DataSet dataSetLast = dataSink.getDataSet();
			//Operator繼承了DataSet

			DataSet p = dataSetLast;

			//不這麼寫，first會為null，初步判斷是因為first在datasource時建立的時候，重新定向到新的地址了
			first = preVisit(p, envStream, first);
			//轉換sink
			OutputFormat dataSinkOutputFormat = dataSink.getFormat();
			if (dataSinkOutputFormat instanceof TextOutputFormat) {
				System.out.println("dataSinkOutputFormat is a TextOutputFormat");
				Path path = ((TextOutputFormat) dataSinkOutputFormat).getOutputFilePath();
				first.writeUsingOutputFormat(new TextOutputFormat(path));
			}
			//first.addSink(dataSink.)
		}
		//System.out.println("size:"+batchSinks.size());
		//返回流環境，後期還可以考慮是否可以合併到原本存在的流環境中，甚至將各個datastream也加以返回，重新利用
		return envStream;
	}

	//從尾向前遍歷，並轉化
	public static DataStream preVisit(DataSet dataSet, StreamExecutionEnvironment envStream, DataStream first) {

		if (!(dataSet instanceof DataSource)) {       // && (dataSet != null)
			//如果沒有到DataSource節點，則遞迴
			first = preVisit(getPre(dataSet), envStream, first);
		}
		//對節點進行相應的操作
		if (dataSet == null) {
			System.out.println("source is null");
		} else if (dataSet instanceof DataSource) {
			//得到源頭後，看源屬於哪一種型別，然後新增到流中
			//而且從dataSource可以得到輸出的資料型別
			//這裡可以得到輸入的資料的型別，但還不知道怎麼用到DataStream中
//			TypeInformation sourceTypeInfo = ((DataSource) dataSet).getResultType();
//			Class sourceType = sourceTypeInfo.getTypeClass();
			//System.out.println("sourceType:"+sourceTypeInfo.getTypeClass());
			InputFormat inputFormat = ((DataSource) dataSet).getInputFormat();
			if (inputFormat instanceof TextInputFormat) {
				//後期可以考慮是否可以直接轉換運算元
				System.out.println("inputFormat is TextInputFormat");
				String filePath = ((TextInputFormat) inputFormat).getFilePath().toString();
				System.out.println("輸入的檔案路徑為：" + filePath);
				//這裡相當於讓first重新指向一個新地址了？？？？
				first = envStream.readTextFile(filePath);
			}
		} else if (dataSet instanceof SingleInputOperator) {
			System.out.println("SingleInputOperator yes");
			//如果是SingleInputOperator，再判斷具體型別,SingleInputOperator中有DataSet 型別的 input。
			//((SingleInputOperator) dataSet).getInput();
			if (dataSet instanceof AggregateOperator) {
				System.out.println("AggregateOperator yes");
				//可以有多個aggregationFunctions，還有個對應的List<Integer> fields,預設好像是4
				List<AggregationFunction<?>> aggregationFunctions = ((AggregateOperator) dataSet).getAggregationFunctions();
				List<Integer> fields = ((AggregateOperator) dataSet).getFields();

				//首先要得到是否被groupBy過了，即是否可以得到UnsortedGrouping型別,得不到則是null
				Grouping grouping=((AggregateOperator) dataSet).getGrouping();
				//如果grouping不是null的話，則說明經過了groupBy，則進行相應的轉換
				if(grouping != null){
					int position = 0; //暫時只考慮一個的情況
					if(grouping instanceof SortedGrouping){
						System.out.println("SortedGrouping yes");
					}else if(grouping instanceof UnsortedGrouping){
						System.out.println("UnsortedGrouping yes");
						//Keys中有keyFields和originalKeyTypes，這裡的後者是String
						Keys keys=grouping.getKeys();
						if(keys instanceof Keys.ExpressionKeys){
							System.out.println("Keys.ExpressionKeys yes");
							//這裡還沒弄清楚有多個時的意思
							int numOfKeyFields = keys.getNumberOfKeyFields();
							int[] positions = keys.computeLogicalKeyPositions();
							if(numOfKeyFields == 1){
								position = positions[0];
							}
							//這裡還方便了我，在流中不用考慮UnsortedGrouping這種東西
							first = first.keyBy(position);
						}else if(keys instanceof Keys.SelectorFunctionKeys){
							System.out.println("Keys.SelectorFunctionKeys yes");
						}
					}
				}

				//先考慮數目為1的情況，因為需要先keyby再sum
				if(aggregationFunctions.size()==1 && fields.size()==1){
					if(aggregationFunctions.get(0) instanceof SumAggregationFunction){
						if(first instanceof KeyedStream){
							first = ((KeyedStream) first).sum(fields.get(0));
						}else{
							System.out.println("Stream中sum的話一定要keyby麼，似乎是。。。");
						}
					}
				}

				//AggregateOperator aggregateOperator = (AggregateOperator) dataSet;

			} else if (dataSet instanceof SingleInputUdfOperator) {
				System.out.println("SingleInputUdfOperator yes");
				if (dataSet instanceof FlatMapOperator){
					System.out.println("FlatMapOperator yes");
					FlatMapFunction flatMapFunction= ((FlatMapOperator) dataSet).getFlatMapFunction();
					first = first.flatMap(flatMapFunction);
				}
			} else {
				System.out.println("Not sure what SingleInputOperator");
			}
		} else if (dataSet instanceof TwoInputOperator) {
			System.out.println("TwoInputOperator yes");
		} else {
			System.out.println("not sure what Operator");
		}

		return first;
	}

	//得到一個前驅
	public static DataSet getPre(DataSet dataSet) {
		if (dataSet instanceof Operator) {
			System.out.println("Operator yes");
			if (dataSet instanceof DataSource) {
				System.out.println("DataSource yes");
				return (DataSource) dataSet;
			} else if (dataSet instanceof SingleInputOperator) {
				System.out.println("SingleInputOperator yes");
				//如果是SingleInputOperator，再判斷具體型別,SingleInputOperator中有DataSet 型別的 input。
				return ((SingleInputOperator) dataSet).getInput();
			} else if (dataSet instanceof TwoInputOperator) {
				System.out.println("TwoInputOperator yes");
				/////
			} else {
				System.out.println("not sure what Operator");
				/////
			}
		} else {
			System.out.println("no Operator");
			/////
		}
		return null;
	}

	//
	// 	User Functions
	//

	/**
	 * Implements the string tokenizer that splits sentences into words as a user-defined
	 * FlatMapFunction. The function takes a line (String) and splits it into
	 * multiple pairs in the form of "(word,1)" (Tuple2&lt;String, Integer&gt;).
	 */
	public static final class LineSplitter implements FlatMapFunction<String, Tuple2<String, Integer>> {

		@Override
		public void flatMap(String value, Collector<Tuple2<String, Integer>> out) {
			// normalize and split the line
			String[] tokens = value.toLowerCase().split("\\W+");

			// emit the pairs
			for (String token : tokens) {
				if (token.length() > 0) {
					out.collect(new Tuple2<String, Integer>(token, 1 ));
				}
			}
		}
	}
}

輸入文字為：

a b c d a a b
a a a

輸出(可以看到每來一個新單詞都會進行一次輸出)：

(a,1)
(b,1)
(c,1)
(d,1)
(a,2)
(a,3)
(b,2)
(a,4)
(a,5)
(a,6)

正常的批處理的輸出：

(a,6)
(b,2)
(c,1)
(d,1)

將Flink中的批處理的WordCount轉化為流處理的WordCount

將Flink中的批處理的WordCount轉化為流處理的WordCount 目的：將Flink中批處理的WordCount轉化為流處理的WordCount 作用：感覺毫無用處如何實現：將批的environmentBatch中的各個運算元，在流的environmentStream中

將docker中的某個容器轉化為映象

我們希望將這個容器內容儲存下來，這樣我們下次就無需再次安裝了。這就是Docker中將容器轉換為映象的技術。 sudo docker commit -m "Added nginx from ubuntu14.04" -a "saymagic" 79c761f627f3

將HTML中的特殊字元轉化為可顯示的字元

很多時候叢網頁中抽取的內容中都含有很多特殊的轉義字元，網頁中顯示的要麼是實體名稱，要麼是實體編碼，如顯示說明實體名稱實體編號半方大的空白 &ensp;   全方大的空白 &emsp;   不斷行的空白格

如何將資料庫中存的樹轉化為樹形列表(以easyui的tree為例)

很多時候，我們會把一棵樹存放到資料庫中，當前臺需要展示一個樹形列表時，將這棵樹讀取出來並顯示，這個過程是怎麼實現的呢？這篇文章是以構造一棵easyui前臺框架的一個樹形列表為例，後臺框架是spring MVC+JPA。首先看一下資料庫中這顆樹是怎麼存的：樹的結構一目

python 怎樣將dataframe中的字串日期轉化為日期

方法一:也是最簡單的直接使用pd.to_datetime函式實現 data['交易時間'] = pd.to_datetime(data['交易時間']) 方法二: 源自利用python進行資料分析P304 使用python的datetime包中的

【QT】如何將QFileDialog對話方塊中的英文內容轉化為中文

如何將QFileDialog對話方塊中的英文內容轉化為中文在QT安裝目錄中找到相應的.qm檔案，如/usr/local/Trolltech/Qt-4.8.7/translations/qt_zh_CN.qm 在程式的入口函數出增加如下程式碼 #include &

.net中怎樣實現json轉化時僅僅處理部分屬性二？

add solver too 不能 track for dynamic returns sof 在第一篇文章中使用的json方法。能夠依照須要僅僅處理須要的屬性，但卻要求屬性不能是復雜的類型，比如泛型，數組。其它用戶自己定義的類等，限制太多，於是自己看看能不能改進，想不

將Map中的參數封裝為XML

pack cme rms fin .com msm urn business finally 1 public String packageYDImageUploadXML(String versionCode, Map parmsMap) throws ParseEx

php學習筆記-php中把浮點數轉化為整數

floor 它的 gpo 操作 post bsp 有時原因結果在php中有時候會遇到比如 14.6%3這種操作，php是會先把14.6轉化為整數再做其它的操作，那麽這個轉化為整數的操作是floor(14.6)還是ceil(14.6)還是round(14.6)呢？都不是

如何將CAD中的視口更改為兩個水平視口？

最新希望查看 ESS 我們 ges http cad編輯器 tex 如何將CAD中的視口更改為兩個水平視口？在編輯CAD圖紙的時候建築工程師們都是借助CAD編輯器來進行繪制的，但是編輯完都需要在次進行查看，但是為了查看方便我們需要把編輯器的視口更改為兩個視口，為了更加的

Qt將Sqlite中的表資料匯出為CSV格式表格資料

開發環境ubuntu16.04+Qt5.6.1 WIN7+Qt5.6.1兩個環境都測試過 1.問題寫一個小軟體的時候，帶有匯出excel功能，但是要在linux下執行，最後瞭解到csv格式，實現起來方便多了，只是用excel開啟中文有亂碼的現象有一個簡單的解決辦法。 2.

將Mnist手寫數字庫轉化為圖片形式和標籤形式

Mnist 資料檔案有兩種，一種是圖片檔案，一種是標籤檔案，那麼如何把他們解析出來呢？（1）解析圖片檔案　　可以看出在train-images.idx3-ubyte中，第一個數為32位的整數（魔數，圖片型別的數），第二個數為32位的整數（圖片的個數），第三和第四個也是32為的整數（分別代表圖片的行數和

將DataFrame中的空列表替換為nan值

DataFrame中空列表顯示為[]，將其替換為NaN值的方法 DataFrame.mask(cond, other=nan, inplace=False, axis=None, level=None, errors='raise', try_cast=False, raise_on_e

JavaScript中科學計數法轉化為數值字串形式

原文地址：https://www.css88.com/archives/9318 （受益匪淺） JavaScript 中經常會碰到數值計算問題，偶爾會在不經意間報一個不是bug的bug。今天來說說一個特殊的例子。我以0.0011BTC 價格買入 0.0002CZR 計算出了的金額是 0.00000022BT

將bx中的二進位制數轉換為十六進位制輸出

binihex proc near mov ch,4 rotate: mov cl,4 rol bx,cl mov al,bl and al,0fh add al,30h cmp al,3ah jl printit add al,7h printit: mov dl,al mov ah

js 快速將字符串數組轉化為數字數組（互換）

ber targe number art net http spa ref blank 轉載於這裏 var arr = [1, 2, 3, 4, 5, 6, 7, 8, 9]; arr.map(String); //結果： [‘1‘, ‘2‘,

日期：將格林尼治時間（GMT）轉化為北京時間

格里尼治時間，就是我們常常說的0度經線的地方平時，也叫格林平時，格林平時的英文是Greenwich Mean Time，簡稱GMT，實際上就是UT（universal time ）也叫世界時的。

如何將CAD中的圖紙另存為電腦桌面

現在，建築設計師們繪製完CAD圖紙後都需要進行檢查，然後移交給上司或者客戶進行檢視，在上交的時候，你的上司需要你將CAD圖紙傳送到它的電腦中然後在CAD看圖軟體中進行檢視，但是不可能每次都要開啟那個介面，那樣就非常的麻煩，為了下一次檢視的方便，就需要將CAD圖紙另存為電腦桌面上。如何將CAD中的圖紙另存為電腦

將字串中的大寫字母轉換為小寫字母

實現函式 ToLowerCase()，該函式接收一個字串引數 str，並將該字串中的大寫字母轉換成小寫字母，之後返回新的字串。示例 1：輸入: "Hello" 輸出: "hello" 示例 2：輸入: "here" 輸出: "here" 示例 3：輸入:

將基本二分類分類器轉化為多類別分類器

主要的兩種策略是：一對多方法；一對一方法。一對一方法是在任意兩類樣本之間設計建立一個二值分類器，對每一個樣本都需要用所有的二值分類器進行分類，然後得票最多的類別即為該未知樣本的預測類別。這樣的話，兩類樣本我們就要設計C22個分類器，三類樣本就要設計C23個分類器。當我們有

將Flink中的批處理的WordCount轉化為流處理的WordCount

將Flink中的批處理的WordCount轉化為流處理的WordCount

相關推薦