Spark Streaming+kafka訂單實時統計實現

阿新 • • 發佈：2019-01-10

package com.lm.sparkLearning.orderexmaple;

import java.util.Arrays;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Map;
import java.util.Set;
import java.util.concurrent.atomic.AtomicLong;

import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.streaming.Durations;
import org.apache.spark.streaming.api.java.JavaDStream;
import org.apache.spark.streaming.api.java.JavaPairInputDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;
import org.apache.spark.streaming.kafka.KafkaUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import com.fasterxml.jackson.databind.ObjectMapper;
import com.google.common.util.concurrent.AtomicDouble;
import com.lm.sparkLearning.utils.ConstantUtils;
import com.lm.sparkLearning.utils.SparkUtils;

import kafka.serializer.StringDecoder;
import scala.Tuple2;

/**
 * spark streaming統計訂單量和訂單總值
 * 
 * @author liangming.deng
 *
 */
public class OrderSparkStreaming {
	private static Logger logger = LoggerFactory.getLogger(OrderSparkStreaming.class);
	private static AtomicLong orderCount = new AtomicLong(0);
	private static AtomicDouble totalPrice = new AtomicDouble(0);

	public static void main(String[] args) {

		// Create context with a 2 seconds batch interval
		JavaStreamingContext jssc = SparkUtils.getJavaStreamingContext("JavaDirectKafkaWordCount",
				"local[2]", null, Durations.seconds(20));

		Set<String> topicsSet = new HashSet<>(Arrays.asList(ConstantUtils.ORDER_TOPIC.split(",")));
		Map<String, String> kafkaParams = new HashMap<>();
		kafkaParams.put("metadata.broker.list", ConstantUtils.METADATA_BROKER_LIST_VALUE);
		kafkaParams.put("auto.offset.reset", ConstantUtils.AUTO_OFFSET_RESET_VALUE);

		// Create direct kafka stream with brokers and topics
		JavaPairInputDStream<String, String> orderMsgStream = KafkaUtils.createDirectStream(jssc,
				String.class, String.class, StringDecoder.class, StringDecoder.class, kafkaParams,
				topicsSet);

		// json與物件對映物件
		final ObjectMapper mapper = new ObjectMapper();
		JavaDStream<Order> orderDStream = orderMsgStream
				.map(new Function<Tuple2<String, String>, Order>() {
					/**
					 * 
					 */
					private static final long serialVersionUID = 1L;

					@Override
					public Order call(Tuple2<String, String> t2) throws Exception {
						Order order = mapper.readValue(t2._2, Order.class);
						return order;
					}
				}).cache();

		// 對DStream中的每一個RDD進行操作
		orderDStream.foreachRDD(new VoidFunction<JavaRDD<Order>>() {
			/**
			 * 
			 */
			private static final long serialVersionUID = 1L;

			@Override
			public void call(JavaRDD<Order> orderJavaRDD) throws Exception {
				long count = orderJavaRDD.count();
				if (count > 0) {
					// 累加訂單總數
					orderCount.addAndGet(count);
					// 對RDD中的每一個訂單，首先進行一次Map操作，產生一個包含了每筆訂單的價格的新的RDD
					// 然後對新的RDD進行一次Reduce操作，計算出這個RDD中所有訂單的價格眾合
					Float sumPrice = orderJavaRDD.map(new Function<Order, Float>() {
						/**
						 * 
						 */
						private static final long serialVersionUID = 1L;

						@Override
						public Float call(Order order) throws Exception {
							return order.getPrice();
						}
					}).reduce(new Function2<Float, Float, Float>() {
						/**
						 * 
						 */
						private static final long serialVersionUID = 1L;

						@Override
						public Float call(Float a, Float b) throws Exception {
							return a + b;
						}
					});
					// 然後把本次RDD中所有訂單的價格總和累加到之前所有訂單的價格總和中。
					totalPrice.getAndAdd(sumPrice);

					// 資料訂單總數和價格總和，生產環境中可以寫入資料庫
					logger.warn("-------Total order count : " + orderCount.get()
							+ " with total price : " + totalPrice.get());
				}
			}
		});
		orderDStream.print();

		jssc.start(); // Start the computation
		jssc.awaitTermination(); // Wait for the computation to terminate
	}
}

Spark Streaming+kafka訂單實時統計實現

package com.lm.sparkLearning.orderexmaple; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Map; import java.

[spark-streaming,kafka] Exactly-once 語義實現設計文件

kafka 版本 0.8.x spark 版本 1.3 文章連結址：翻譯原因： 0.8 的 kafka 版本中，所有 topic partition 的 offset 消費記錄集中儲存在 zookeeper 上，而 spark-streaming 中資料

用Spark Streaming+Kafka實現訂單數和GMV的實時更新

前言在雙十一這樣的節日，很多電商都會在大螢幕上顯示實時的訂單總量和GMV總額。由於訂單數量巨大，不可能每隔一秒就到資料庫裡進行一次SQL的資料統計，這時候就需要用到流式計算。本文將介紹一個簡單的Demo，講解如何通過Spark Stream消費來自Kafka中訂單資訊，

Spark-Streaming+kafka實現零丟失

原文連結 kafka和sparkstreaming是兩種適配很好的技術，兩者都是分散式系統適用於處理大量資料，兩者對於實現資料的零丟失並沒有提供現成的解決方案，所以這篇文章就是希望可以幫助你完成這個目標注：使用Spark Streaming的Direct St

在寫spark-streaming + kafka 實現專案問題

在ide的本地開發都是好的，但是使用spark-submit提交到叢集時出現了問題。後面發現在開發環境中使用了maven來構建專案，所以配置的spark版本是2.1.0，scala版本是2.11.11，hadoop是2.7.2，kafka是2.1版本的，本地除錯時能正常消費k

實時計算實踐（spark streaming+kafka+hdfs）

一直在研究大資料處理方向的各種技術和工具，但沒有真正用於實踐中，恰好目前風控措施轉向，需要實施“線上+離線”的雙線防控措施，遂在調研查閱相關文件後，決定從零開始構造（資料探勘轉工程開發，思維轉變是關鍵），這裡面涉及的幾個階段慢慢說來：專案開發環境選擇（sc

下載基於大數據技術推薦系統實戰教程(Spark ML Spark Streaming Kafka Hadoop Mahout Flume Sqoop Redis)

大數據技術推薦系統推薦系統實戰地址:http://pan.baidu.com/s/1c2tOtwc 密碼:yn2r82課高清完整版，轉一播放碼。互聯網行業是大數據應用最前沿的陣地，目前主流的大數據技術，包括 hadoop，spark等，全部來自於一線互聯網公司。從應用角度講，大數據在互聯網領域主

Spark Streaming+Kafka spark 寫入 kafka

目錄前言在WeTest輿情專案中，需要對每天千萬級的遊戲評論資訊進行詞頻統計，在生產者一端，我們將資料按照每天的拉取時間存入了Kafka當中，而在消費者一端，我們利用了spark streaming從kafka中不斷拉取資料進行詞頻統計。本文首先對spark stre

Spark踩坑記——Spark Streaming+Kafka

目錄前言 Spark streaming接收Kafka資料基於Receiver的方式直接讀取方式 Spark向kafka中寫入資料 Spark streaming+Kafka應用 Spark str

Spark Streaming+Kafka

前言在WeTest輿情專案中，需要對每天千萬級的遊戲評論資訊進行詞頻統計，在生產者一端，我們將資料按照每天的拉取時間存入了Kafka當中，而在消費者一端，我們利用了spark streaming從kafka中不斷拉取資料進行詞頻統計。本文首先對spark streamin

Spark-streaming kafka資料接收兩種方式

@Author : Spinach | GHB @Link : http://blog.csdn.net/bocai8058 1 Receiver-based Approach import org.apache.spark.streaming.k

Spark Streaming對Exactly Once的實現原理

昨天看到了這篇文章: 為什麼Spark Streaming + Kafka很難保證exactly once? 看過後，對作者對Exactly Once的理解不敢苟同，所以想寫這篇文章，闡述一下我對S

為什麼 Spark Streaming + Kafka 無法保證 exactly once？

Streaming job 的排程與執行為什麼很難保證 exactly once 上面這張流程圖最主要想說明的就是，job 的提交執行是非同步的，與 checkpoint 操作並不是原子操作。這樣的機制會引起資料重複消費問題：為了簡化問題容易理解，我們假設一個 batch 只生成一個

基於Python的Spark Streaming+Kafka程式設計實踐及調優總結

說明Spark Streaming的原理說明的文章很多，這裡不做介紹。本文主要介紹使用Kafka作為資料來源的程式設計模型,編碼實踐,以及一些優化說明演示環境Spark:1.6Kafka:kafka_2.11-0.9.0.1實現語言：Python程式設計模型目前Spark S

基於Python的Spark Streaming+Kafka程式設計實踐

說明 Spark Streaming的原理說明的文章很多，這裡不做介紹。本文主要介紹使用Kafka作為資料來源的程式設計模型,編碼實踐,以及一些優化說明演示環境 Spark:1.6 Kafka:kafka_2.11-0.9.0.1 實現語言：P

Spark Streaming-Kafka例項(Python與Java版本)

本文實現kafka與Spark Streaming之間的通訊，其中Kafka端producer實現使用Java，Spark Streaming端Consumer使用Python實現。首先安裝kafka與spark streaming環境，kafka測試連通測試參考上文，本文的實驗環

spark----基於Python的Spark Streaming+Kafka程式設計實踐

來源：http://blog.csdn.net/eric_sunah/article/details/54096057?utm_source=tuicool&utm_medium=referral 說明 Spark Streaming的原理說明的文章很多，這裡不

Spark Streaming + Kafka + Opencv + Face Recognizer + HDFS Sequence File + Mysql

<pre name="code" class="java">/** * Created by lwc on 6/17/16. */ import java.io.*; import java.sql.*; import java.util.*; impo

Spark+Spark streaming+kafka簡介和總結

接上文《Hadoop生態系統》，對Spark、Spark streaming、kafka的相關內容進行總結。 1、Hadoop和Spark的關係 Spark是為了跟Hadoop配合而開發出來的，不是為了取代Hadoop，專門用於大資料量下的迭代式計算。 Spark運算比H

sparkstreaming之使用Spark Streaming完成有狀態統計

package com.yys.spark.project import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} /** * 使用S

Spark Streaming+kafka訂單實時統計實現

相關推薦