Kafka+SparkStreaming解析Json資料並插入Hbase，包含部分業務邏輯

阿新 • • 發佈：2019-01-31

以下程式碼是在學習Spark時候自己寫的例子，還不成熟，僅供記錄和參考

下邊直接上程式碼,我在我覺得有用的位置加了比較詳細的註解

import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

import org.apache.hadoop.hbase.client.Put;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.streaming.Durations;
import org.apache.spark.streaming.api.java.JavaDStream;
import org.apache.spark.streaming.api.java.JavaPairReceiverInputDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;
import org.apache.spark.streaming.kafka.KafkaUtils;

import scala.Tuple2;

import com.alibaba.fastjson.JSONObject;

public class KafkaStream_Json {

	static final String ZK_QUORUM = "devhadoop3:2181,devhadoop2:2181,devhadoop1:2181";
	static final String GROUP = "spark_json_test_group";
	static final String TOPICSS = "spark_json_test2";
	static final String NUM_THREAD = "5";

	@SuppressWarnings({ "serial" })
	public static void main(String[] args) {
		SparkConf conf = new SparkConf().setAppName("json_test").setMaster("local[2]");
		conf.set("spark.testing.memory", "2147480000");// 後面的值大於512m即可
		JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(20));

		int numThreads = Integer.parseInt(NUM_THREAD);
		Map<String, Integer> topicMap = new HashMap<String, Integer>();
		String[] topics = TOPICSS.split(",");
		for (String topic : topics) {
			topicMap.put(topic, numThreads);
		}
		JavaPairReceiverInputDStream<String, String> messages = KafkaUtils.createStream(jssc, ZK_QUORUM, GROUP, topicMap);// 原始資料
		JavaDStream<String> lines = messages.map(new Function<Tuple2<String, String>, String>() {// 這裡返回的應該就是一個Json字串了
					public String call(Tuple2<String, String> tuple2) {
						return tuple2._2();
					}
				});
		JavaDStream<JSONObject> words_2 = lines.flatMap(new FlatMapFunction<String, JSONObject>() {// 把資料轉換成json
					@Override
					public Iterable<JSONObject> call(String jsonStr) throws Exception {
						List<JSONObject> arr = new ArrayList<JSONObject>();
						JSONObject obj = JSONObject.parseObject(jsonStr);
						System.out.println("收到的資料" + jsonStr);
						arr.add(obj);
						return arr;
					}
				});
		JavaDStream<JSONObject> words = words_2.persist();// 快取也可以根據實際業務儲存,也可以用cache,cache只支援MEMORY_ONLY級別快取
		// 如果上邊不快取,那麼type1和type2輸出的時候,都需要重新執行以下lines,words_2的操作,那麼效率將會很低
		// 業務分流,根據業務編號先區分出不同的訊息,業務1
		JavaDStream<JSONObject> type1 = words.filter(new Function<JSONObject, Boolean>() {
			@Override
			public Boolean call(JSONObject v1) throws Exception {
				return "1".equals(v1.getString("type"));
			}
		});
		// 業務2的資料
		JavaDStream<JSONObject> type2 = words.filter(new Function<JSONObject, Boolean>() {
			@Override
			public Boolean call(JSONObject v1) throws Exception {
				return "2".equals(v1.getString("type"));
			}
		});

		JavaDStream<JSONObject> type1_2 = type1.map(new Function<JSONObject, JSONObject>() {

			@Override
			public JSONObject call(JSONObject v1) throws Exception {
				/*
				 * 對v1進行業務處理,但是最終結果是在type1_2,類似於string的 substring函式
				 * 
				 * 必須用一個新的去接而不是改變type1裡的v1的值
				 * 
				 * 這裡即使我們改變的起始是v1但是實際上type1裡的v1並沒有變化
				 */
				v1.put("context", "測試哈哈哈");
				return v1;
			}
		});
		type1.print();//
		type1_2.print();//
		type2.print();

		/*
		 * 下邊是迴圈是獲得真正資料的一種方式 ,foreachRDD也相當於是一種輸出
		 */
		type1_2.foreachRDD(new VoidFunction<JavaRDD<JSONObject>>() {
			@Override
			public void call(JavaRDD<JSONObject> rdd) throws Exception {
				System.out.println("123333333333333333333333333333");
				List<Put> puts = new ArrayList<Put>();
				System.out.println("外部" + puts.hashCode());
				List<JSONObject> dataList = rdd.collect();
				for (JSONObject t : dataList) {
					System.out.println(t.getString("name"));
					Put put = new Put(t.getString("name").getBytes());
					put.addColumn("data".getBytes(), "name".getBytes(), t.getString("name").getBytes());
					put.addColumn("data".getBytes(), "age".getBytes(), t.getString("age").getBytes());
					put.addColumn("data".getBytes(), "type".getBytes(), t.getString("type").getBytes());
					put.addColumn("data".getBytes(), "context".getBytes(), t.getString("context").getBytes());
					puts.add(put);
//					System.out.println("內部" + puts.hashCode());//這裡的puts,hashCode每次都不一樣，但是確實是最後都加入到一個List裡了
				}
				if (puts.size() > 0) {
					System.out.println("陣列大小"+puts.size());
					HbaseInsert.getInstance().insertHbase("lwb_test", puts);
				}
			}
		});
		jssc.start();//
		jssc.awaitTermination();//
	}
}

這個是批量插入HBase的隨便寫的一個插入類

import java.io.IOException;
import java.util.List;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Table;

public class HbaseInsert {
	private static HbaseInsert hbaseInsert;
	private static Configuration configuration;
	private static String zkHost = "devhadoop3,devhadoop2,devhadoop1";
	private static String zkPort = "2181";
	private static String zkParent = "/hbase-unsecure";
	private static Connection connection;

	private HbaseInsert() {
		configuration = HBaseConfiguration.create();
		configuration.set("hbase.zookeeper.quorum", zkHost);
		configuration.set("hbase.zookeeper.property.clientPort", zkPort);
		configuration.set("zookeeper.znode.parent", zkParent);
		try {
			connection = ConnectionFactory.createConnection(configuration);
		} catch (IOException e) {
			e.printStackTrace();
		}
	}

	public static synchronized HbaseInsert getInstance() {
		if (hbaseInsert == null) {
			hbaseInsert = new HbaseInsert();
		}
		return hbaseInsert;
	}

	public void insertHbase(String tablename, List<Put> puts) {
		Table table = null;
		try {
			table = connection.getTable(TableName.valueOf(tablename));
			table.put(puts);
		} catch (IOException e) {
			e.printStackTrace();
		} finally {
			if (table != null) {
				try {
					table.close();
				} catch (IOException e) {
					e.printStackTrace();
				}
			}
		}

	}
}

下邊是我測試往kafka裡插入資料的程式碼

import java.util.Properties;

import com.alibaba.fastjson.JSONObject;

import kafka.javaapi.producer.Producer;
import kafka.producer.KeyedMessage;
import kafka.producer.ProducerConfig;

public class KafkaProducer {

	public static void main(String[] aaa) {
		Properties props = new Properties();
		// 此處配置的是kafka的埠
		props.put("metadata.broker.list", "192.168.1.100:2181,192.168.1.101:2181,192.168.1.102:2181");// 這裡必須用域名
		// kafka.serializer.
		props.put("request.required.acks", "-1");
		props.put("serializer.class", "kafka.serializer.StringEncoder");
		Producer<String, String> producer = new Producer<String, String>(new ProducerConfig(props));
		for (int i = 0; i < 10; i++) {
			JSONObject obj = new JSONObject();
			obj.put("name", "name"+i);
			obj.put("age", i);
			obj.put("type", String.valueOf(i%4));
			producer.send(new KeyedMessage<String, String>("spark_json_test2", obj.toJSONString()));//
		}
		producer.close();
	}
}

Kafka+SparkStreaming解析Json資料並插入Hbase，包含部分業務邏輯

以下程式碼是在學習Spark時候自己寫的例子，還不成熟，僅供記錄和參考下邊直接上程式碼,我在我覺得有用的位置加了比較詳細的註解import java.util.ArrayList; import java.util.HashMap; import java.util.List

python 解析excel資料並插入資料庫（可執行）

背景：應業務要求需要不定期將一些excel資料匯入到線上資料庫run.py實現如下：#encoding=utf-8import xlrdfrom configparser import ConfigParserimport pymysqlimport systry:book

安卓使用FastJson解析Json資料並展示到ListView中

先上效果圖：今天繼續講安卓端解析Json資料，資料存放在tomcat伺服器，伺服器端採用SSH框架編碼完成，由安卓端通過http的GET請求獲取到json物件陣列，之後就是解析啦，解析完將所有資料存放在實體類中，接下來就是將資料顯示在ListView上面

Gson輕鬆解析json資料並儲存到Sqlite資料庫

今天給大家帶來的文章為通過Gson解析json資料並快速儲存至資料庫的文章。我們要儲存是json物件陣列，本文中的json陣列並非從後臺獲取，為了演示，直接手動構造。需要儲存到資料庫的是手機的品牌和型號。所以，我們需要新建一個bean實體類去儲存我們的型號和品牌。在這，我

Java從網路中請求獲取JSon資料以及解析JSON資料----（自創，請註明）

Json資料是比較常用的資料型別解析，優點就不多說啦。來看看方法： public static JSONObject getJsonObject(String url) { JSONObjec

android客戶端從伺服器端獲取json資料並解析的實現程式碼

package com.nuoter.adapterUntil; import java.util.HashMap; import java.util.List; import android.content.Context; import android.graphics.Bitmap;

HttpPost 傳輸Json資料並解析

這裡寫個測試用例模擬外部呼叫，通過httppost 傳遞一個json封裝的表單資料。包：import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.JSONArray; 相關總結：http:/

Android手機號碼歸屬地的查詢（使用聚合資料API，獲取JSON資料並解析）

一個簡單的Demo，從聚合資料申請手機號碼歸屬地資料介面在EditText中輸入待查詢號碼，獲取號碼後在子執行緒中使用HttpUrlconnection獲取JSON資料，之後進行解析資料獲取完成後，在主執行緒中更新UI，顯示獲取的號碼歸屬地資訊佈局檔案 <

關於C#向伺服器請求json資料並解析

查了一下午+一晚上，什麼樣的回答都有，好些讓我感到十分無語。趕專案，沒總結出太高大上的用法，下面簡單講一下。請求用的GET方法 HttpWebRequest req = (HttpWebRequest)WebRequest.Create(url); WebRespons

關於java 傳送http json資料格式請求時，伺服器端如何接收json資料並解析

一般情況下，傳送http請求時content-tye是application/x-www-form-urlencoded格式，而這樣的格式會以鍵值對的形似被封裝，至於是在瀏覽器傳送的時候被封裝的還是在伺服器端被封裝的我還不太清楚。但是我的猜測是在瀏覽器傳送請求的時候在客戶端

HttpClient獲取並解析JSON資料

package com.example.testjsonandget; import java.io.BufferedReader; import java.io.InputStreamReader; import java.util.ArrayList; import j

向HBase中匯入資料3：使用MapReduce從HDFS或本地檔案中讀取資料並寫入HBase（增加使用Reduce批量插入）

前面我們介紹了：為了提高插入效率，我們在前面只使用map的基礎上增加使用reduce，思想是使用map-reduce操作，將rowkey相同的項規約到同一個reduce中，再在reduce中構建put物件實現批量插入測試資料如下:注意到有兩條記錄是相似的。package cn

android客戶端從伺服器端獲取json資料並解析

今天總結一下：首先客戶端從伺服器端獲取json資料 1、利用HttpUrlConnection 1 /** 2 * 從指定的URL中獲取陣列 3 * @param urlPath 4 * @return 5 *

swift http請求返回json資料並解析

// Sent when the application is about to move from active to inactive state. This can occur for certain types of temporary interruptions (such as a

Kettle--url請求獲取JSON資料並解析

1、場景某個請求地址返回的資料是json，用kettle請求該路徑，並將json解析後存放到文字中；2、kettle流程步驟1：REST Client 為設定請求步驟2 JSON Input：注意J

獲取伺服器json資料並解析顯示listview上

通過伺服器返回的json資料並解析顯示到listview控制元件上：執行圖：伺服器返回json格式： { "activity": [ { "name": "天王蓋地虎

springMVC框架下JQuery傳遞並解析Json資料

json作為一種輕量級的資料交換格式，在前後臺數據交換中佔據著非常重要的地位。Json的語法非常簡單，採用的是鍵值對錶示形式。JSON 可以將 JavaScript 物件中表示的一組資料轉換為字串，然後就可以在函式之間輕鬆地傳遞這個字串，或者在非同步應用程式中將字串從 We

IOS獲取伺服器JSON資料並動態顯示到UITableView列表

Hi,本篇文章主要講解如何利用服務端，獲取json資料並且動態顯示到UITableView之中；分別思路邏輯有以下: 1.建立該需要專案檔案，如：PurchaseView.h(樣式),PurchaseController.h(邏輯); 2.使用的AFNetworking，請求服務

c語言建立和解析json資料

之前一篇有說到使用lincurl庫獲取網頁資料，那麼問題來了，當我們獲取到的資料大多是json的格式，應該怎麼解析出我們需要的欄位呢？下面我們使用json-glib庫來對json資料進行建立和解析。 #include<json-glib/json-glib.h> #include

ajax中解析json資料的方式

eval(); //此方法不推薦 JSON.parse(); //推薦方法一、兩種方法的區別我們先初始化一個json格式的物件：　　var jsonDate = '{ "name":"周星馳","age":23 }' 　　var

Kafka+SparkStreaming解析Json資料並插入Hbase，包含部分業務邏輯

相關推薦