Spark實戰（二）：Kafka-SparkStreaming-Elasticsearch

阿新 • • 發佈：2019-01-25

本文介紹saprk實時部分----spark-streaming。spark-streaming可以實現實時批處理功能，實際上還是相當於小的批處理，但是是7*24工作，可以近實時但需要維護成本。本文裡的用java寫的demo，實現功能是將kafka作為spark-streaming的輸入源，Elasticsearch作為輸出源來實現實時處理架構。

還是先上程式碼
maven

<dependency>
	<groupId>org.apache.spark</groupId>
	<artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
	<version>2.3.1</version>
</dependency>
<dependency>
	<groupId>org.apache.spark</groupId>
	<artifactId>spark-core_2.11</artifactId>
	<version>2.3.1</version>
	<scope>provided</scope>
</dependency>
<dependency>
	<groupId>org.apache.spark</groupId>
	<artifactId>spark-streaming_2.11</artifactId>
	<version>2.3.1</version>
	<scope>provided</scope>

</dependency>
<dependency>
	<groupId>org.apache.spark</groupId>
	<artifactId>spark-sql_2.11</artifactId>
	<version>2.3.1</version>
	<scope>provided</scope>
</dependency>
<dependency>
	<groupId>org.elasticsearch</groupId>
	<artifactId>elasticsearch-hadoop</artifactId>
	<version>6.3.0</version>
</dependency>
</dependencies>

程式碼

import org.apache.spark.streaming.api.java.JavaStreamingContext;
import org.apache.spark.streaming.kafka010.ConsumerStrategies;
import org.apache.spark.streaming.kafka010.KafkaUtils;
import org.apache.spark.streaming.kafka010.LocationStrategies;

import org.apache.spark.streaming.api.java.JavaDStream;
import org.apache.spark.streaming.api.java.JavaInputDStream;

import java.util.Arrays;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Map;
import java.util.Set;
import java.util.regex.Pattern;

import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.common.serialization.StringDeserializer;
import org.apache.spark.SparkConf;

import org.apache.spark.streaming.Durations;
import org.elasticsearch.spark.rdd.api.java.JavaEsSpark;
import org.elasticsearch.spark.streaming.api.java.JavaEsSparkStreaming;

public static void main(String[] args) throws Exception {
	// 從SparkConf建立StreamingContext並指定1秒鐘的批處理大小
	String master = "spark://192.168.7.51:7077";
	//	 String master = "local[2]";
	
	SparkConf conf = new SparkConf().setMaster(master).setAppName("StreamingTest")
			// .set("spark.executor.memory", "1g")
			// .set("spark.dynamicAllocation.enabled", "false")
		      .set("spark.es.nodes", "192.168.7.51")//指定es地址
		      .set("spark.es.port", "9200")//指定es埠號
			.setJars(new String[] {//如果是叢集模式要指定jar包，整個專案打包
					"/Users/username/eclipse-workspace/spark-streaming/target/spark-streaming-0.0.1-SNAPSHOT.jar" });
	
	//指定1秒獲取一次kafka資料
	JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(1));
	
	String brokers = "kafka1:9092";//指定kafka地址
	String groupId = "kafka";//指定消費者組id
	String topics = "test1";//指定topic
	Set<String> topicsSet = new HashSet<>(Arrays.asList(topics.split(",")));
	Map<String, Object> kafkaParams = new HashMap<>();
	kafkaParams.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, brokers);
	kafkaParams.put(ConsumerConfig.GROUP_ID_CONFIG, groupId);
	kafkaParams.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);
	kafkaParams.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);
	
	//取出1秒內的資料轉成rddstream
	JavaInputDStream<ConsumerRecord<String, String>> messages = KafkaUtils.createDirectStream(jssc,
			LocationStrategies.PreferConsistent(), ConsumerStrategies.Subscribe(topicsSet, kafkaParams));
	
	//取出每條message中的value
	JavaDStream<String> lines = messages.map(record -> record.value());
	
	//拼成可以插入Elasticsearch的格式
	JavaDStream<String> out = lines.map(str -> "{\"test\":\""+str+"\"}");
	
	//列印
	out.print();
	
	//寫入Elasticsearch
	JavaEsSparkStreaming.saveJsonToEs(out, "/spark/doc");

	//啟動streaming
	jssc.start();
	
	// 等待作業完成
	jssc.awaitTermination();
	jssc.stop();
}

spark-streaming接收kafka資料

spark-streaming接收kafka資料使用spark-streaming-kafka-0-10_2.11包。

maven

<dependency>
	<groupId>org.apache.spark</groupId>
	<artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
	<version>2.3.1</version>
</dependency>

scala

val kafkaParams = Map[String, Object](
  "bootstrap.servers" -> "localhost:9092,anotherhost:9092",
  "key.deserializer" -> classOf[StringDeserializer],
  "value.deserializer" -> classOf[StringDeserializer],
  "group.id" -> "use_a_separate_group_id_for_each_stream",
  "auto.offset.reset" -> "latest",
  "enable.auto.commit" -> (false: java.lang.Boolean)
)

val topics = Array("topicA", "topicB")
val stream = KafkaUtils.createDirectStream[String, String](
  streamingContext,
  PreferConsistent,
  Subscribe[String, String](topics, kafkaParams)
)

stream.map(record => (record.key, record.value))

java

Map<String, Object> kafkaParams = new HashMap<>();
kafkaParams.put("bootstrap.servers", "localhost:9092,anotherhost:9092");
kafkaParams.put("key.deserializer", StringDeserializer.class);
kafkaParams.put("value.deserializer", StringDeserializer.class);
kafkaParams.put("group.id", "use_a_separate_group_id_for_each_stream");
kafkaParams.put("auto.offset.reset", "latest");
kafkaParams.put("enable.auto.commit", false);

Collection<String> topics = Arrays.asList("topicA", "topicB");

JavaInputDStream<ConsumerRecord<String, String>> stream =
  KafkaUtils.createDirectStream(
    streamingContext,
    LocationStrategies.PreferConsistent(),
    ConsumerStrategies.<String, String>Subscribe(topics, kafkaParams)
  );

stream.mapToPair(record -> new Tuple2<>(record.key(), record.value()));

spark-streaming輸出結果到Elasticsearch

maven

<dependency>
	<groupId>org.elasticsearch</groupId>
	<artifactId>elasticsearch-hadoop</artifactId>
	<version>6.3.0</version>
</dependency>

scala

import org.elasticsearch.spark.streaming.EsSparkStreaming;

java

import org.elasticsearch.spark.streaming.api.java.JavaEsSparkStreaming;

需要指定Elasticsearch，可以寫在配置檔案裡，也可以在程式裡指定。

配置檔案：spark-default.conf

spark.es.nodes　　  eshosts
spark.es.port　　   9200

寫在程式裡

SparkConf conf = new SparkConf().setMaster(master).setAppName("StreamingTest")
		// .set("spark.executor.memory", "1g")
		// .set("spark.dynamicAllocation.enabled", "false")
	      .set("spark.es.nodes", "192.168.7.51")
	      .set("spark.es.port", "9200");

寫入es

JavaEsSparkStreaming.saveJsonToEs(out, "/spark/doc");

Spark實戰（二）：Kafka-SparkStreaming-Elasticsearch

本文介紹saprk實時部分----spark-streaming。spark-streaming可以實現實時批處理功能，實際上還是相當於小的批處理，但是是7*24工作，可以近實時但需要維護成本。本文裡的用java寫的demo，實現功能是將kafka作為spar

Python 爬蟲實戰（二）：使用 requests-html

分享 -html 調用交流 html 技術 python-re find 自己的 Python 爬蟲實戰（一）：使用 requests 和 BeautifulSoup，我們使用了 requests 做網絡請求，拿到網頁數據再用 BeautifulSoup 解析，就在前不久

Kafka筆記整理（二）：Kafka Java API使用

大數據 Kafka Java [TOC] Kafka筆記整理（二）：Kafka Java API使用下面的測試代碼使用的都是下面的topic： $ kafka-topics.sh --describe hadoop --zookeeper uplooking01:2181,uplooking0

Android項目實戰（二）：安卓應用程序退出的三種方法

eat 延遲用戶 pre html port length tst 二次原文:Android項目實戰（二）：安卓應用程序退出的三種方法現在的APP退出的時候都不是讓用戶點擊了“後退鍵”就退出。防止用戶點錯了後退鍵而造成的用戶體檢不好。一年前搞

Flex佈局實戰（二）：網格 \ 聖盃 \ 輸入框 \ 懸掛式 \ 固定底欄 \ 流式佈局

參考：http://www.ruanyifeng.com/blog/2015/07/flex-grammar.html 下面程式碼可能會比較多，但核心CSS程式碼已經用 /**/ 的標記標出，直接看核心程式碼就好。一、網格佈局 1、基本網格佈局最簡單

Docker實戰（二）：容器使用和映象製作

執行容器安裝好之後，我們就可以來開始Docker之旅了，我們現在的Docker還是一個”裸”Docker，上面沒有容器，等一下，什麼式容器？所謂容器就是Docker中用來執行應用的，Docker的容器很輕量級，但功能卻強悍的很。也沒有映象。映象？映象簡單

Docker實戰（二）：製作自己的Docker映象

製作自己的Docker映象製作自己的Docker映象主要有如下兩種方式： 1.使用docker commit 命令來建立映象通過docker run命令啟動容器修改docker映象內容docker commit提交修改的映象docker run新的映象 2.使用

安卓APP實戰（二）：Activity管理，記憶體回收及LeakCanary監測

每一個Activity元件都是一個單獨的介面，承載著與使用者互動的任務。也是應用最基本的功能之一，在不同介面之間切換，並實現不同的功能。每一個程式必須要有一個Activity作為入口（Manifest檔案中將其<category>標籤設定為LAUNCHER），然後通過介面控制到

微信小程式“反編譯”實戰（二）：原始碼還原

小編推薦：Fundebug專注於JavaScript、微信小程式、微信小遊戲，Node.js和Java線上bug實時監控。真的是一個很好用的bug監控服務，眾多大佬公司都在使用。在上一篇文章《微信小程式“反編譯”實戰（一）：解包》中，我們詳細介紹瞭如何獲取某一個小程式

大資料筆記spark篇（二）：pyspark的安裝

開篇關於spark的配置其實沒有必要詳細地寫，這邊我放上我學習參考的廈門大學的部落格，拖了n年，我總算把單機版的spark給安裝上了。環境變數 export JAVA_HOME=/usr/lib/jvm/default-java export HA

Flask框架的學習與實戰（二）：實戰小專案

昨天寫了一篇flask開發環境搭建，今天繼續，進行一個實戰小專案-blog系統。 blog系統很簡單，只有一個頁面，然後麻雀雖小五臟俱全。這裡目的不是為了做專案而做專案，這篇文章本意是通過這次練習傳達以下幾個知識點： 1、從全域性上了解flask專案的目錄結構 2、flas

深度學習入門實戰（二）：用TensorFlow訓練線性迴歸

0x00 概要 TensorFlow是谷歌爸爸出的一個開源機器學習框架，目前已被廣泛應用，谷歌爸爸出品即使效能不是最強的（其實效能也不錯），但絕對是用起來最方便的，畢竟谷歌有Jeff Dean坐鎮，這波穩。 0x01 TensorFlow安裝官方有一個Mac上Te

Kafka（二）： Kafka 叢集部署與使用

一、Kafka 叢集部署 Kafka是一種分散式的釋出（producer）/訂

kafka--Kafka設計解析（二）：Kafka High Availability （上）

Kafka在0.8以前的版本中，並不提供High Availablity機制，一旦一個或多個Broker宕機，則宕機期間其上所有Partition都無法繼續提供服務。若該Broker永遠不能再恢復，亦或磁碟故障，則其上資料將丟失。而Kafka的設計目標之一即是提供資

FFmpeg開發實戰（二）：FFmpeg 文件操作

打開重命名 har ffmpeg else 刪除 ext %d 操作 FFmpeg 提供了豐富的API供我們使用，下面我們來講述一下文件操作相關的API： FFmpeg 刪除文件：avpriv_io_delete() FFmpeg 重命名文件：avpriv_io_mov

c++11新特性實戰（二）：智慧指標

## c++11新特性實戰（二）：智慧指標 c++11添加了新的智慧指標，unique_ptr、shared_ptr和weak_ptr，同時也將auto_ptr置為廢棄(deprecated)。但是在實際的使用過程中，很多人都會有這樣的問題： 1. 不知道三種智慧指標的具體使用場景 2. 無腦只使用

Docker實戰（八）：Docker安裝ElasticSearch環境

Docker安裝ElasticSearch環境基本步驟和之前幾篇文章一樣，請參考前面的相關文章 ElasticSearch安裝 1.安裝ES2.安裝head,bigdesk外掛3.安裝ik外掛4.配置ES叢集安裝ES（本文使用的是elasticsearch的1.7.2版本） <code clas

Spark實戰（一）SparkStreaming集成Kafka

round 形式寫入 some base cal 接下來會話支持 Spark Streaming + Kafka集成指南 Kafka項目在版本0.8和0.10之間引入了一個新的消費者API，因此有兩個獨立的相應Spark Streaming包可用。請選擇正確的包，

Spark學習（二）---kafka+SparkStreaming的搭建與連線

環境說明：三臺機器（Centos 6.5）： Master 192.168.203.148 Slave1 192.168.203.149 Slave2 192.168.203.150 第一步：環境 spark環境配置： spark安裝很簡單，可以參考網上教程，說下spar

Oracle數據庫12cR2（項目實戰之二）：Linux系統安裝Oracle12.2

oracle12cr2 oracle視頻教程 oracle12cr2安裝 linux上安裝12c linux上安裝12cr2 oracle數據庫12cR2（項目實戰之二）：linux系統安裝Oracle12.2一、課程主題：風哥Oracle數據庫教程12cR2（項目實戰之二）：在linux

Spark實戰（二）：Kafka-SparkStreaming-Elasticsearch

spark-streaming接收kafka資料

spark-streaming輸出結果到Elasticsearch

相關推薦