Flume從Kafka讀取資料，並寫入到Hdfs上

阿新 • • 發佈：2019-02-17

需求：kafka有五個主題

topic topic-app-startup

topic topic-app-error

topic topic-app-event

topic topic-app-usage

topic topic-app-page

flume讀取Kafka 5個主題資料，並將資料寫入到hdfs上，按照主題、年月日建立資料夾以及檔案

如下,每天新建五個資料夾，並將主題上的資料寫入到對應的資料夾下

/user/centos/applogs/pager/2017/12/12/xxx-xxxxxxx

/user/centos/applogs/startup/2017/12/12/xxx-xxxxxxx
/user/centos/applogs/startup/2017/12/12/xxx-xxxxxxx
/user/centos/applogs/error/2017/12/12/xxx-xxxxxxx

/user/centos/applogs/error/2017/12/1/xxx-xxxxxxx

flume配置：

    a1.sources=r1
    a1.channels=c1
    a1.sinks=k1

    a1.sources.r1.interceptors = i1
    a1.sources.r1.interceptors.i1.type = com.wang.bigdata.app.LogCollInterceptor$Builder
    a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource
    a1.sources.r1.batchSize = 5000
a1.sources.r1.batchDurationMillis = 2000
 
a1.sources.r1.kafka.bootstrap.servers = datatwo:9092,datathree:9020,datafour:9020
a1.sources.r1.kafka.zookeeperConnect = datasix:2181,datasenven:2181,dataeight:2181
a1.sources.r1.kafka.topics.regex = ^topic_app_.*$
    

    a1.channels.c1.type=memory
    a1.channels.c1.capacity=100000
a1.channels.c1.transactionCapacity=10000
 
a1.sinks.k1.type = hdfs
    a1.sinks.k1.hdfs.path = /home/wangjk/applogs/%{logType}/%Y%m/%d/%H%M
    a1.sinks.k1.hdfs.filePrefix = events-
    a1.sinks.k1.hdfs.round = false
a1.sinks.k1.hdfs.roundValue = 30
a1.sinks.k1.hdfs.roundUnit = second

    a1.sources.r1.channels = c1
    a1.sinks.k1.channel= c1

需要自定義 intercepter:

package com.wang.bigdata.app;
import com.alibaba.fastjson.JSONObject;
import com.wang.bigdata.app.common.*;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;
import java.util.List;
import java.util.Map;
/**
 * 自定義flume的攔截器，提取bod中的時間作為header
 */
public class LogCollInterceptor implements Interceptor {

    private final boolean preserveExisting;
    private LogCollInterceptor(boolean preserveExisting) {
        this.preserveExisting = preserveExisting;
}

    public void initialize() {

    }

    public Event intercept(Event event) {
        Map<String, String> headers = event.getHeaders();
        byte[] body = event.getBody();
String jsonStr = new String(body);
AppBaseLog json = JSONObject.parseObject(jsonStr, AppBaseLog.class);
Long time = json.getCreatedAtMs();
headers.put(FlumeConstants.TIMESTAMP,Long.toString(time));
//處理log型別的頭
String logType = "" ;
        if(jsonStr.contains("pageId")){
            logType = "page" ;
}
        //eventLog
else if (jsonStr.contains("eventId")) {
            logType = "event";
}
        //usageLog
else if (jsonStr.contains("singleUseDurationSecs")) {
            logType = "usage";
}
        //error
else if (jsonStr.contains("errorBrief")) {
            logType = "error";
}
        //startup
else if (jsonStr.contains("network")) {
            logType = "startup";
}
        headers.put("logType", logType);
//save(logType);
return event;
}



    public static class Builder implements Interceptor.Builder {

        private boolean preserveExisting = FlumeConstants.PRESERVE_DFLT;
        public Interceptor build() {
            return new LogCollInterceptor(preserveExisting);
}

        public void configure(Context context) {
            preserveExisting = context.getBoolean(FlumeConstants.PRESERVE, FlumeConstants.PRESERVE_DFLT);
}

    }



    public List<Event> intercept(List<Event> events) {
        for (Event event : events) {
            intercept(event);
}
        return events;
}

    public void close() {

    }

}

public class FlumeConstants {
    public static String TIMESTAMP = "timestamp";
    public static String PRESERVE = "preserveExisting";
    public static boolean PRESERVE_DFLT = false;
}

將類打成jar包放入flume/lib包下，注意：還需要將jar包依賴的jar包一同放入到flume/lib下

Flume從Kafka讀取資料，並寫入到Hdfs上

需求：kafka有五個主題 topic topic-app-startuptopic topic-app-errortopic topic-app-eventtopic topic-app-usagetopic topic-app-pageflume讀取Kafka 5個主題

第一篇部落格：java從資料庫讀取資料，並寫入到excel表格中

今天，組長分配了查詢資料庫記錄，並把這些記錄寫入到excel表格中，以前沒有嘗試過，借鑑了一些別人的程式碼，最終實現了功能，寫一篇部落格，總結一下這個過程。1.準備需要用到的jar包 1.jxl.jar 2.mysql-connector-java-5.1.

從kafka獲取資料，並解析為json格式，寫入到mysql中

專案需求：將kafka解析來的日誌獲取到資料庫的變更記錄，按照訂單的級別和訂單明細級別寫入資料庫，一條訂單的所有資訊包括各種維度資訊均儲存在一條json中，寫入mysql5.7中。配置資訊： [Global] kafka_server=xxxxxxxxxxx:9092 kafka_to

從Matlab .fig檔案中讀取資料，並重新繪圖

Matlab提供了強大的函式集合，可以從.fig檔案中讀取圖中的資料，並重新繪製圖形。如果原始資料丟失，我們可以從.fig檔案中恢復原始資料，並基於原始資料做進一步的處理。以下是一個從兩個不同檔案

100臺裝置採集資料，並寫入資料庫

需求見： https://bbs.csdn.net/topics/392471595 有 100 臺左右的裝置，每秒採集一條資料，再向 SQL Server 2008 資料庫寫入資料。一天的資料量： 100*3600*24=86400

Kafka——Kafka消費者（從Kafka讀取資料）

KafkaConsumer概念消費者和消費者群組假設我們有一個應用程式需要從一個Kafka 主題讀取訊息並驗證這些訊息，然後再把它們儲存起來。應用程式需要建立一個消費者物件，訂閱主題並開始接收訊息，然後驗證訊息井儲存結果。過了一陣子，生產者往主題寫入訊息的速度超過了應用程式驗證資料的

Kafka消費者——從 Kafka讀取資料

應用程式使用 KafkaConsumer向 Kafka 訂閱主題，並從訂閱的主題上接收訊息。從 Kafka 讀取資料不同於從其他悄息系統讀取資料，它涉及一些獨特的概念和想法。如果不先理解這些概念，就難以理解如何使用消費者 API。所以我們接下來先解釋這些重要的概念，然

Java呼叫R ，從資料庫讀取資料，用R根據讀取的資料生成圖片儲存

Java呼叫R 以及用R生成的圖片儲存使用 png()可以保證圖片質量有人說繪製的圖片上有中文會出現亂碼，其實設定下字型就好了 family=‘STXihei’ Java呼叫R 以及用R生成的圖片儲存 Rserve的配置和啟動： ①安裝Rserve包。

C# 關於從資料庫取資料，並顯示在DataGridView中

從資料庫取資料，並顯示在DataGridView中，這種做法在.net開發經常用到。那麼到底該怎麼做呢？ 1.要從資料庫取資料，必須建立資料庫連線 2.將資料庫中取到的資料通過一定方法，顯示在介面的的dataGridView中程式碼：效果如下：從中，我們可以

flume從本地讀取資料錄入到hdfs檔案系統

配置檔案 agent.sources = origin agent.channels = memorychannel agent.sinks = target agent.sources.origin.type = TAILDIR agent.source

Java從控制檯讀取資料，輸入流System.in的幾種方法效率比較

這是一道PTA上關於複雜度演算法的題目——最大子列和問題，程式簡單。我分別用 1)構造Scanner物件：Scanner in = new Scanner(System.in); 2)構造BufferedReader物件：BufferedReader br = new B

MapReduce功能實現四---小綜合(從hbase中讀取資料統計並在hdfs中降序輸出Top 3)

MapReduce功能實現系列：方法一：在Hbase中建立相應的表1： create 'hello','cf' put 'hello','1','cf:hui','hello world' put 'hello','2','cf:hui','h

springMVC+webUploader從後臺讀取資料，回顯圖片,超過三張不再新增

從前臺獲取資料，並匯出PDF檔案

/** * 房帖調整，生成pdf檔案 */public static void fttzPdfFile(Object[][] data,String path){ SimpleDateFormat sdf = new SimpleDateFormat("yyyyMM"); Date date = new D

簡單實現將介面返回的資料寫入文字，從文字讀取引數，實現介面引數自動化

import requestsimport jsonimport datetimeimport re# 需要測試的環境api_host = "192.168.10.XX:XXXX"#發貨寶登入 15023621999headers_null = { 'Content-Type' : 'applicati

STM32操作訪問flash，包括寫入資料到flash和從flash讀取資料

STM32中儲存區分為：隨機存取儲存器RAM和只讀儲存器ROM。其中： RAM為常說的記憶體，比如手機的2G記憶體4G記憶體等，就是程式跑起來的時候所佔用的儲存空間，特點是掉電資料丟失。 ROM為常說的硬碟，比如手機的64G和128G等，可以簡單的理解為

使用flume從kafka中的topic取得資料，然後存入hbase和es中

接上一篇部落格，將資料進行處理！！！！！！！！！！！！#HBASEtier2.sources = HbaseAuditSource HbaseRunSource HdfsAuditSources HdfsRunSources HiveAuditSources HiveRun

從hbase表1中讀取資料，最終結果寫入到hbase表2 ，如何通過MapReduce實現？

需要一：將hbase中‘student’表中的info：name和info：age兩列資料取出並寫入到hbase中‘user’表中的basic：XM和basic：NL class ReadStudentMapper extends Table

MapReduce中，從HDFS讀取資料計算後寫入HBase

基於上個例子。做一下簡單的改造。在原本的例子中，從HDFS中讀取資料計算之後再寫會HDFS裡，現在講Reducer類改造一下，把計算後的資料。寫入到HBase當中，寫完之後我們會使用HBase的命令查詢一下寫入資料。開啟原有的Reducer類，程式碼如下：import org

Spark Streaming從Kafka中獲取資料，並進行實時單詞統計，統計URL出現的次數

1、建立Maven專案 2、啟動Kafka 3、編寫Pom檔案 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.or

Flume從Kafka讀取資料，並寫入到Hdfs上

相關推薦