storm 整合 kafka之保存MySQL數據庫

阿新 • • 發佈：2017-12-05

ons fin 整合連接 shu date pri 對數 data

整合Kafka+Storm，消息通過各種方式進入到Kafka消息中間件，比如通過使用Flume來收集的日誌數據，然後暫由Kafka中的路由暫存，然後在由實時計算程序Storm做實時分析，這時候我們需要講Storm中的Spout中讀取Kafka中的消息，然後交由具體的Bolt組件分析處理。實際上在 apache-storm-0.9.3這個版本的Storm已經自帶了一個集成Kafka的外部插件程序storm-kafka，可以直接使用，例如我使用的Maven依賴配置。

1、配置Maven依賴包 [html] view plain copy

<dependency>
<groupId>org.apache.kafka</groupId>
<artifactId>kafka_2.10</artifactId>
<version>0.8.2.0</version>
<exclusions>
<exclusion>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-log4j12</artifactId>
</exclusion>
</exclusions>
</dependency>
<dependency>
<groupId>org.apache.storm</groupId>
<artifactId>storm-core</artifactId>
<version>0.9.3</version>
<scope>provided</scope>
<exclusions>
<exclusion>
<groupId>org.slf4j</groupId>
<artifactId>log4j-over-slf4j</artifactId>
</exclusion>
<exclusion>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-api</artifactId>
</exclusion>
</exclusions>
</dependency>
<dependency>
<groupId>org.apache.storm</groupId>
<artifactId>storm-kafka</artifactId>
<version>0.9.3</version>
</dependency>

storm程序能接收到數據，並進行處理，但是會發現數據被重復處理這是因為在bolt中沒有對數據進行確認，需要調用ack或者fail方法，修改完成之後即可。 2、編寫Storm程序 [java] view plain copy

package com.yun.storm;
import java.util.UUID;
import storm.kafka.KafkaSpout;
import storm.kafka.SpoutConfig;
import storm.kafka.ZkHosts;
import backtype.storm.Config;
import backtype.storm.LocalCluster;
import backtype.storm.topology.TopologyBuilder;
/**
* Storm讀取Kafka消息中間件數據
*
* @author shenfl
*
*/
public class KafkaLogProcess {
private static final String BOLT_ID = LogFilterBolt.class.getName();
private static final String SPOUT_ID = KafkaSpout.class.getName();
public static void main(String[] args) {
TopologyBuilder builder = new TopologyBuilder();
//表示kafka使用的zookeeper的地址
String brokerZkStr = "192.168.2.20:2181";
ZkHosts zkHosts = new ZkHosts(brokerZkStr);
//表示的是kafak中存儲數據的主題名稱
String topic = "mytopic";
//指定zookeeper中的一個根目錄，裏面存儲kafkaspout讀取數據的位置等信息
String zkRoot = "/kafkaspout";
String id = UUID.randomUUID().toString();
SpoutConfig spoutconf = new SpoutConfig(zkHosts, topic, zkRoot, id);
builder.setSpout(SPOUT_ID , new KafkaSpout(spoutconf));
builder.setBolt(BOLT_ID,new LogFilterBolt()).shuffleGrouping(SPOUT_ID);
LocalCluster localCluster = new LocalCluster();
localCluster.submitTopology(KafkaLogProcess.class.getSimpleName(), new Config(),builder.createTopology() );
}
}

[java] view plain copy

package com.yun.storm;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import backtype.storm.task.OutputCollector;
import backtype.storm.task.TopologyContext;
import backtype.storm.topology.OutputFieldsDeclarer;
import backtype.storm.topology.base.BaseRichBolt;
import backtype.storm.tuple.Tuple;
/**
* 處理來自KafkaSpout的tuple，並保存到數據庫中
*
* @author shenfl
*
*/
public class LogFilterBolt extends BaseRichBolt {
private OutputCollector collector;
/**
*
*/
private static final long serialVersionUID = 1L;
Pattern p = Pattern.compile("省公司鑒權接口url\\[(.*)]\\,響應時間\\[([0-9]+)\\],當前時間\\[([0-9]+)\\]");
/**
* 每個LogFilterBolt實例僅初始化一次
*/
@Override
public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {
this.collector = collector;
}
@Override
public void execute(Tuple input) {
try {
// 接收KafkaSpout的數據
byte[] bytes = input.getBinaryByField("bytes");
String value = new String(bytes).replaceAll("[\n\r]", "");
// 解析數據並入庫
Matcher m = p.matcher(value);
if (m.find()) {
String url = m.group(1);
String usetime = m.group(2);
String currentTime = m.group(3);
System.out.println(url + "->" + usetime + "->" + currentTime);
}
this.collector.ack(input);
} catch (Exception e) {
this.collector.fail(input);
}
}
@Override
public void declareOutputFields(OutputFieldsDeclarer declarer) {
}
}

3、解析日誌入庫 3.1 引入Maven依賴包 [java] view plain copy

<dependency>
<groupId>commons-dbutils</groupId>
<artifactId>commons-dbutils</artifactId>
<version>1.6</version>
</dependency>
<dependency>
<groupId>mysql</groupId>
<artifactId>mysql-connector-java</artifactId>
<version>5.1.29</version>
</dependency>

3.2 編寫MyDbUtils工具類 （1）創建數據表 [sql] view plain copy

create database jfyun;
CREATE TABLE `log_info` (
`id` int(10) NOT NULL AUTO_INCREMENT,
`topdomain` varchar(100) COLLATE latin1_german1_ci DEFAULT NULL,
`usetime` varchar(10) COLLATE latin1_german1_ci DEFAULT NULL,
`time` datetime DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1803 DEFAULT CHARSET=latin1 COLLATE=latin1_german1_ci

（2）MyDbUtils的程序 [java] view plain copy

package com.yun.storm.util;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.util.ArrayList;
import java.util.Date;
import java.util.List;
import org.apache.commons.dbutils.BasicRowProcessor;
import org.apache.commons.dbutils.QueryRunner;
import org.apache.commons.dbutils.handlers.ArrayListHandler;
public class MyDbUtils {
private static String className = "com.mysql.jdbc.Driver";
private static String url = "jdbc:mysql://192.168.2.20:3306/jfyun?useUnicode=true&characterEncoding=utf-8";
private static String user = "root";
private static String password = "123";
private static QueryRunner queryRunner = new QueryRunner();
public static final String INSERT_LOG = "insert into log_info(topdomain,usetime,time) values(?,?,?)";
static{
try {
Class.forName(className);
} catch (ClassNotFoundException e) {
e.printStackTrace();
}
}
public static void main(String[] args) throws Exception {
String topdomain = "taobao.com";
String usetime = "100";
String currentTime="1444218216106";
MyDbUtils.update(MyDbUtils.INSERT_LOG, topdomain,usetime,currentTime);
update(INSERT_LOG,topdomain,usetime,MyDateUtils.formatDate2(new Date(Long.parseLong(currentTime))));
}
/**
* @param conn
* @throws SQLException
*/
public static void update(String sql,Object... params) throws SQLException {
Connection connection = getConnection();
//更新數據
queryRunner.update(connection,sql, params);
connection.close();
}
public static List<String> executeQuerySql(String sql) {
List<String> result = new ArrayList<String>();
try {
List<Object[]> requstList = queryRunner.query(getConnection(), sql,
new ArrayListHandler(new BasicRowProcessor() {
@Override
public <Object> List<Object> toBeanList(ResultSet rs,
Class<Object> type) throws SQLException {
return super.toBeanList(rs, type);
}
}));
for (Object[] objects : requstList) {
result.add(objects[0].toString());
}
} catch (SQLException e) {
e.printStackTrace();
}
return result;
}
/**
* @throws SQLException
*
*/
public static Connection getConnection() throws SQLException {
//獲取mysql連接
return DriverManager.getConnection(url, user, password);
}
}

（3）修改storm程序 [java] view plain copy

if (m.find()) {
url = m.group(1);
usetime = m.group(2);
currentTime = m.group(3);
System.out.println(url + "->" + usetime + "->" + currentTime);
MyDbUtils.update(MyDbUtils.INSERT_LOG, url, usetime,
MyDateUtils.formatDate2(new Date(Long.parseLong(currentTime))));
}

（4）統計指標 [sql] view plain copy

--統計每個url平均響應時間
SELECT
topdomain,
ROUND(AVG(usetime) / 1000, 2) avg_use_time
FROM
log_info
GROUP BY topdomain;

原文鏈接：http://blog.csdn.net/shenfuli/article/details/48982687

storm 整合 kafka之保存MySQL數據庫

ons fin 整合連接 shu date pri 對數 data 整合Kafka+Storm，消息通過各種方式進入到Kafka消息中間件，比如通過使用Flume來收集的日誌數據，然後暫由Kafka中的路由暫存，然後在由實時計算程序Storm做實時分析，這時候我們需要講S

storm 整合 kafka之保存MySQL數據庫

storm 整合 kafka之保存MySQL數據庫

matlab公共函數之保存YUV數據

分批次讀取csv文件，並保存到數據庫

二進制數據將圖片保存到數據庫，並讀取數據庫二進制數據顯示圖片

excel上傳保存到數據庫 poi

把數據保存到數據庫附加表 `dede_addonarticle` 時出錯，請把相關信息提交給Dede

表單中用戶輸入"&lt"等轉義字符，保存後數據庫是原文保存的，但是查看的時候顯示的是"<"，如何是的<字符在網頁原樣顯示出來。

POI讀取Excel數據保存到數據庫，並反饋給用戶處理信息

Winform下如何上傳圖片並顯示出來。同時保存到數據庫

采用短網址生成方法,生成一個唯一的短字符串。然後保存到數據庫中，與源數據一一對應,新的系統，從數據庫中取到相應的數據（轉）

flask接收post提交的json數據並保存至數據庫

node+multiparty+ajax 上傳圖片並保存到數據庫

把數據保存到數據庫附加表 `dede_addonarticle` 時出錯，請把相關信息提交給DedeCms官方。Duplicate entry '2' for key 'PRIMARY'

多圖上傳控制器及模型代碼（2）thinkphp5+layui實現多圖上傳保存到數據庫，可以實現圖片自由排序，自由刪除。

php 保存到mysql數據庫中的中文亂碼

mysql數據庫從刪庫到跑路之mysql:視圖、觸發器、事務、存儲過程、函數

mysql數據庫之存儲引擎

Python3爬蟲（九）數據存儲之關系型數據庫MySQL

信息技術手冊可視化進度報告基於BeautifulSoup框架的python3爬取數據並連接保存到MySQL數據庫

上傳圖片保存到MySql數據庫並顯示--經驗證有效

storm 整合 kafka之保存MySQL數據庫

相關推薦