Spark整合Kafka實時流計算Java案例

阿新 • • 發佈：2019-01-27

package com.test;

import java.util.*;
import org.apache.spark.SparkConf;
import org.apache.spark.TaskContext;
import org.apache.spark.api.java.*;
import org.apache.spark.api.java.function.*;
import org.apache.spark.streaming.Durations;
import org.apache.spark.streaming.api.java.*;
import org.apache.spark.streaming.kafka010.*;
import org.apache.commons.lang3.StringUtils;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.common.TopicPartition;
import org.apache.kafka.common.serialization.StringDeserializer;
import org.apache.spark.api.java.Optional;
import scala.Tuple2;

public class Test5 {

	public static void main(String[] args) throws InterruptedException {
		// 接收資料的地址和埠
		final JavaPairRDD<String, Integer>[] lastRdd = new JavaPairRDD[1];

		SparkConf conf = new SparkConf().setMaster("local").setAppName(
				"streamingTest");
		JavaSparkContext sc = new JavaSparkContext(conf);
		sc.setLogLevel("ERROR");
		sc.setCheckpointDir("./checkpoint");
		JavaStreamingContext ssc = new JavaStreamingContext(sc,
				Durations.seconds(10));

		// kafka相關引數，必要！缺了會報錯
		Map<String, Object> kafkaParams = new HashMap<>();
		kafkaParams.put("bootstrap.servers", "192.168.174.200:9092");
		kafkaParams.put("key.deserializer", StringDeserializer.class);
		kafkaParams.put("value.deserializer", StringDeserializer.class);
		kafkaParams.put("group.id", "newgroup2");
		kafkaParams.put("auto.offset.reset", "latest");
		kafkaParams.put("enable.auto.commit", false);

		Collection<String> topics = Arrays.asList("test");

		JavaInputDStream<ConsumerRecord<String, String>> stream = KafkaUtils
				.createDirectStream(ssc, LocationStrategies.PreferConsistent(),
						ConsumerStrategies.<String, String> Subscribe(topics,
								kafkaParams));

		// 注意這邊的stream裡的引數本身是個ConsumerRecord物件
		JavaPairDStream<String, Integer> counts = stream
				.flatMap(
						x -> Arrays.asList(x.value().toString().split(" "))
								.iterator())
				.mapToPair(x -> new Tuple2<String, Integer>(x, 1))
				.reduceByKey((x, y) -> x + y);
		//counts.print();

		JavaPairDStream<String, Integer> result = counts
				.updateStateByKey(new Function2<List<Integer>, Optional<Integer>, Optional<Integer>>() {

					private static final long serialVersionUID = 1L;

					@Override
					public Optional<Integer> call(List<Integer> values,
							Optional<Integer> state) throws Exception {
						/**
						 * values:經過分組最後 這個key所對應的value，如：[1,1,1,1,1]
						 * state:這個key在本次之前之前的狀態
						 */
						Integer updateValue = 0;
						if (state.isPresent()) {
							updateValue = state.get();
						}

						for (Integer value : values) {
							updateValue += value;
						}
						return Optional.of(updateValue);
					}
				});

		result.print();

		ssc.start();
		ssc.awaitTermination();
		ssc.close();
	}
}

Spark整合Kafka實時流計算Java案例

package com.test; import java.util.*; import org.apache.spark.SparkConf; import org.apache.spark.TaskContext; import org.apache.spark.api

Spark實時流計算Java案例

現在，網上基於spark的程式碼基本上都是Scala，很多書上也都是基於Scala，沒辦法，誰叫spark是Scala寫出來的了，但是我現在還沒系統的學習Scala，所以只能用java寫spark程式了，spark支援java，而且Scala也基於JVM,不說了

sparkStreaming：實時流計算Java案例

現在，網上基於spark的程式碼基本上都是Scala，很多書上也都是基於Scala，沒辦法，誰叫spark是Scala寫出來的了，但是我現在還沒系統的學習Scala，所以只能用java寫spark程式了，spark支援java，而且Scala也基於JVM,不說了，直接上程式碼

實時流計算、Spark Streaming、Kafka、Redis、Exactly-once、實時去重

http://lxw1234.com/archives/2018/02/901.htm在實時流式計算中，最重要的是在任何情況下，訊息不重複、不丟失，即Exactly-once。本文以Kafka–>Spark Streaming–>Redis為例，一方面說明一下如何

基於Flume+Kafka+Spark Streaming打造實時流處理項目實戰課程

大數據本課程從實時數據產生和流向的各個環節出發，通過集成主流的分布式日誌收集框架Flume、分布式消息隊列Kafka、分布式列式數據庫HBase、及當前最火爆的Spark Streaming打造實時流處理項目實戰，讓你掌握實時處理的整套處理流程，達到大數據中級研發工程師的水平！下載地址:百度網盤下載

基於Spark機器學習和實時流計算的智慧推薦系統

原文連結：http://blog.csdn.net/qq1010885678/article/details/46675501 概要：隨著電子商務的高速發展和普及應用，個性化推薦的推薦系統已成為一個重要研究領域。個性化推薦演算法是推薦系統中最核心的技術，在很大程

Spark入門實戰系列--7.Spark Streaming（上）--實時流計算Spark Streaming原理介紹

【注】該系列文章以及使用到安裝包/測試資料可以在《》獲取 1、Spark Streaming簡介 1.1 概述 Spark Streaming 是Spark核心API的一個擴充套件，可以實現高吞吐量的、具備容錯機制的實時流資料的處理。支援從多種資料來源獲取資料，包括Kafk、Flume、Twitt

kafka的流計算框架

需求: producer: 傳送例如 aa-zz consumer：收到zz 通過-切分得到後面的，如果沒有-就正常輸出 Processor public class LogProcessor implements Processor<byte [],byte []

Storm實時流計算原理概述與最佳入門實踐

隨著網際網路的發展，資訊量爆炸式的增長，人們越來越需要實時獲取一些計算資訊，離線計算已經不能滿足了人們的需求，這時Storm、Flink、Spark Streaming等實時計算框架日益發展起來。本篇文章主要講述Storm原理架構概述以及入門實踐案例的編寫

Spark Streaming-Kafka例項(Python與Java版本)

本文實現kafka與Spark Streaming之間的通訊，其中Kafka端producer實現使用Java，Spark Streaming端Consumer使用Python實現。首先安裝kafka與spark streaming環境，kafka測試連通測試參考上文，本文的實驗環

Spark整合Kafka原始碼分析——SparkStreaming從kafak中接收資料

整體概括：要實現SparkStreaming從kafak中接收資料分為以下幾步(其中涉及的類在包org.apache.spark.streaming.kafka中)： 1.建立createStream()函式，返回型別為ReceiverInputDStream物件，在cre

如何設計一個實時流計算系統

實時流計算的場景歸納起來多半是：業務系統根據實時的操作，不斷生成事件（訊息/呼叫），然後引起一系列的處理分析，這個過程是分散在多臺計算機上並行完成的，看上去就像事件連續不斷的流經多個計算節點處理，形成一個實時流計算系統。市場上流計算產品有很多，主要是通過訊息中樞結合工人模式實現，大致過程如下： 1、開

Kafka實時流資料經Storm至Hdfs

目前HDFS上日誌一部分由MR清洗生成&二次計算，一部分直接從伺服器離線上傳，但在私有云環境下，離線日誌的壓縮上傳可能會對服務造成效能影響，而且在很多日誌已經實時傳輸到Kafka叢集的情況下，考慮Kafka->Hdfs也不失為一條合理的路徑。

Spark Streaming實時流處理筆記（6）—— Kafka 和 Flume的整合

1 整體架構 2 Flume 配置 https://flume.apache.org/releases/content/1.6.0/FlumeUserGuide.html 啟動kafka kafka-server-start.sh $KAFKA_HOME/config/se

spark streaming 與 kafka實現實時流的案例分析

package day14 import org.apache.spark.SparkConf import org.apache.spark.streaming.kafka.KafkaUtils import org.apache.spark.streaming.{ Se

Spark Streaming整合Kafka實現網站點選流實時統計

安裝並配置zk 安裝並配置Kafka 啟動zk 啟動Kafka 建立topic bin/kafka-topics.sh --create --zookeeper node1.itcast.cn:2181,node2.itcast.cn:2181 \ --

flume+kafka+storm整合實現實時計算小案例

我們做資料分析的時候常常會遇到這樣兩個場景，一個是統計歷史資料，這個就是要分析歷史儲存的日誌。我們會使用hadoop，具體框架可以設計為：1.flume收集日誌；2.HDFS輸入路徑儲存日誌；3.MapReduce計算，將結果輸出到HDFS輸出路徑；4.hive+sq

Spark Streaming 整合 SparkSQL處理流式計算

Spark Streaming之所以成為現在主流的流處理開發計算框架，不僅僅是因為它具有流處理和批處理的能力及支援離線和實時計算雙重特點，更重要的是Spark具有良好的生態，它不僅可以整合Hadoop生態的Hive，使用Hive on Spark進行離線分析，整合Yarn模式，使用Spark

Spark Streaming整合Kafka，Mysql，實時儲存資料到Mysql(基於Receiver的方式)

叢集分配如下： 192.168.58.11 spark01 192.168.58.12 spark02 192.168.58.13 spark03 spark版本：spark-2.1.0-bin-hadoop2.7 kafka版本：kafka_2.11-2.0.0 Spark St

Spark Streaming整合Kafka，Mysql，實時儲存資料到Mysql(直接讀取方式)

叢集分配如下： 192.168.58.11 spark01 192.168.58.12 spark02 192.168.58.13 spark03 spark版本：spark-2.1.0-bin-hadoop2.7 kafka版本：kafka_2.11-2.0.0 Spark St

Spark整合Kafka實時流計算Java案例

相關推薦