Storm 系列（九）—— Storm 整合 Kafka

一、整合說明

Storm 官方對 Kafka 的整合分為兩個版本，官方說明文件分別如下：

Storm Kafka Integration : 主要是針對 0.8.x 版本的 Kafka 提供整合支援；
Storm Kafka Integration (0.10.x+) : 包含 Kafka 新版本的 consumer API，主要對 Kafka 0.10.x + 提供整合支援。

這裡我服務端安裝的 Kafka 版本為 2.2.0(Released Mar 22, 2019) ，按照官方 0.10.x+ 的整合文件進行整合，不適用於 0.8.x 版本的 Kafka。

二、寫入資料到Kafka

2.1 專案結構

2.2 專案主要依賴

<properties>
    <storm.version>1.2.2</storm.version>
    <kafka.version>2.2.0</kafka.version>
</properties>

<dependencies>
    <dependency>
        <groupId>org.apache.storm</groupId>
        <artifactId>storm-core</artifactId>
        <version>${storm.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.storm</groupId>
        <artifactId>storm-kafka-client</artifactId>
        <version>${storm.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.kafka</groupId>
        <artifactId>kafka-clients</artifactId>
        <version>${kafka.version}</version>
    </dependency>
</dependencies>

2.3 DataSourceSpout

/**
 * 產生詞頻樣本的資料來源
 */
public class DataSourceSpout extends BaseRichSpout {

    private List<String> list = Arrays.asList("Spark", "Hadoop", "HBase", "Storm", "Flink", "Hive");

    private SpoutOutputCollector spoutOutputCollector;

    @Override
    public void open(Map map, TopologyContext topologyContext, SpoutOutputCollector spoutOutputCollector) {
        this.spoutOutputCollector = spoutOutputCollector;
    }

    @Override
    public void nextTuple() {
        // 模擬產生資料
        String lineData = productData();
        spoutOutputCollector.emit(new Values(lineData));
        Utils.sleep(1000);
    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer outputFieldsDeclarer) {
        outputFieldsDeclarer.declare(new Fields("line"));
    }


    /**
     * 模擬資料
     */
    private String productData() {
        Collections.shuffle(list);
        Random random = new Random();
        int endIndex = random.nextInt(list.size()) % (list.size()) + 1;
        return StringUtils.join(list.toArray(), "\t", 0, endIndex);
    }

}

產生的模擬資料格式如下：

Spark   HBase
Hive    Flink   Storm   Hadoop  HBase   Spark
Flink
HBase   Storm
HBase   Hadoop  Hive    Flink
HBase   Flink   Hive    Storm
Hive    Flink   Hadoop
HBase   Hive
Hadoop  Spark   HBase   Storm

2.4 WritingToKafkaApp

/**
 * 寫入資料到 Kafka 中
 */
public class WritingToKafkaApp {

    private static final String BOOTSTRAP_SERVERS = "hadoop001:9092";
    private static final String TOPIC_NAME = "storm-topic";

    public static void main(String[] args) {


        TopologyBuilder builder = new TopologyBuilder();

        // 定義 Kafka 生產者屬性
        Properties props = new Properties();
        /*
         * 指定 broker 的地址清單，清單裡不需要包含所有的 broker 地址，生產者會從給定的 broker 裡查詢其他 broker 的資訊。
         * 不過建議至少要提供兩個 broker 的資訊作為容錯。
         */
        props.put("bootstrap.servers", BOOTSTRAP_SERVERS);
        /*
         * acks 引數指定了必須要有多少個分割槽副本收到訊息，生產者才會認為訊息寫入是成功的。
         * acks=0 : 生產者在成功寫入訊息之前不會等待任何來自伺服器的響應。
         * acks=1 : 只要叢集的首領節點收到訊息，生產者就會收到一個來自伺服器成功響應。
         * acks=all : 只有當所有參與複製的節點全部收到訊息時，生產者才會收到一個來自伺服器的成功響應。
         */
        props.put("acks", "1");
        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        KafkaBolt bolt = new KafkaBolt<String, String>()
                .withProducerProperties(props)
                .withTopicSelector(new DefaultTopicSelector(TOPIC_NAME))
                .withTupleToKafkaMapper(new FieldNameBasedTupleToKafkaMapper<>());

        builder.setSpout("sourceSpout", new DataSourceSpout(), 1);
        builder.setBolt("kafkaBolt", bolt, 1).shuffleGrouping("sourceSpout");


        if (args.length > 0 && args[0].equals("cluster")) {
            try {
                StormSubmitter.submitTopology("ClusterWritingToKafkaApp", new Config(), builder.createTopology());
            } catch (AlreadyAliveException | InvalidTopologyException | AuthorizationException e) {
                e.printStackTrace();
            }
        } else {
            LocalCluster cluster = new LocalCluster();
            cluster.submitTopology("LocalWritingToKafkaApp",
                    new Config(), builder.createTopology());
        }
    }
}

2.5 測試準備工作

進行測試前需要啟動 Kakfa：

1. 啟動Kakfa

Kafka 的執行依賴於 zookeeper，需要預先啟動，可以啟動 Kafka 內建的 zookeeper,也可以啟動自己安裝的：

# zookeeper啟動命令
bin/zkServer.sh start

# 內建zookeeper啟動命令
bin/zookeeper-server-start.sh config/zookeeper.properties

啟動單節點 kafka 用於測試：

# bin/kafka-server-start.sh config/server.properties

2. 建立topic

# 建立用於測試主題
bin/kafka-topics.sh --create --bootstrap-server hadoop001:9092 --replication-factor 1 --partitions 1 --topic storm-topic

# 檢視所有主題
 bin/kafka-topics.sh --list --bootstrap-server hadoop001:9092

3. 啟動消費者

啟動一個消費者用於觀察寫入情況，啟動命令如下：

# bin/kafka-console-consumer.sh --bootstrap-server hadoop001:9092 --topic storm-topic --from-beginning

2.6 測試

可以用直接使用本地模式執行，也可以打包後提交到伺服器叢集執行。本倉庫提供的原始碼預設採用 maven-shade-plugin 進行打包，打包命令如下：

# mvn clean package -D maven.test.skip=true

啟動後，消費者監聽情況如下：

三、從Kafka中讀取資料

3.1 專案結構

3.2 ReadingFromKafkaApp

/**
 * 從 Kafka 中讀取資料
 */
public class ReadingFromKafkaApp {

    private static final String BOOTSTRAP_SERVERS = "hadoop001:9092";
    private static final String TOPIC_NAME = "storm-topic";

    public static void main(String[] args) {

        final TopologyBuilder builder = new TopologyBuilder();
        builder.setSpout("kafka_spout", new KafkaSpout<>(getKafkaSpoutConfig(BOOTSTRAP_SERVERS, TOPIC_NAME)), 1);
        builder.setBolt("bolt", new LogConsoleBolt()).shuffleGrouping("kafka_spout");

        // 如果外部傳參 cluster 則代表線上環境啟動,否則代表本地啟動
        if (args.length > 0 && args[0].equals("cluster")) {
            try {
                StormSubmitter.submitTopology("ClusterReadingFromKafkaApp", new Config(), builder.createTopology());
            } catch (AlreadyAliveException | InvalidTopologyException | AuthorizationException e) {
                e.printStackTrace();
            }
        } else {
            LocalCluster cluster = new LocalCluster();
            cluster.submitTopology("LocalReadingFromKafkaApp",
                    new Config(), builder.createTopology());
        }
    }

    private static KafkaSpoutConfig<String, String> getKafkaSpoutConfig(String bootstrapServers, String topic) {
        return KafkaSpoutConfig.builder(bootstrapServers, topic)
                // 除了分組 ID,以下配置都是可選的。分組 ID 必須指定,否則會丟擲 InvalidGroupIdException 異常
                .setProp(ConsumerConfig.GROUP_ID_CONFIG, "kafkaSpoutTestGroup")
                // 定義重試策略
                .setRetry(getRetryService())
                // 定時提交偏移量的時間間隔,預設是 15s
                .setOffsetCommitPeriodMs(10_000)
                .build();
    }

    // 定義重試策略
    private static KafkaSpoutRetryService getRetryService() {
        return new KafkaSpoutRetryExponentialBackoff(TimeInterval.microSeconds(500),
                TimeInterval.milliSeconds(2), Integer.MAX_VALUE, TimeInterval.seconds(10));
    }
}

3.3 LogConsoleBolt

/**
 * 列印從 Kafka 中獲取的資料
 */
public class LogConsoleBolt extends BaseRichBolt {


    private OutputCollector collector;

    public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {
        this.collector=collector;
    }

    public void execute(Tuple input) {
        try {
            String value = input.getStringByField("value");
            System.out.println("received from kafka : "+ value);
            // 必須 ack,否則會重複消費 kafka 中的訊息
            collector.ack(input);
        }catch (Exception e){
            e.printStackTrace();
            collector.fail(input);
        }

    }

    public void declareOutputFields(OutputFieldsDeclarer declarer) {

    }
}

這裡從 value 欄位中獲取 kafka 輸出的值資料。

在開發中，我們可以通過繼承 RecordTranslator 介面定義了 Kafka 中 Record 與輸出流之間的對映關係，可以在構建 KafkaSpoutConfig 的時候通過構造器或者 setRecordTranslator() 方法傳入，並最後傳遞給具體的 KafkaSpout。

預設情況下使用內建的 DefaultRecordTranslator，其原始碼如下，FIELDS 中定義了 tuple 中所有可用的欄位：主題，分割槽，偏移量，訊息鍵，值。

public class DefaultRecordTranslator<K, V> implements RecordTranslator<K, V> {
    private static final long serialVersionUID = -5782462870112305750L;
    public static final Fields FIELDS = new Fields("topic", "partition", "offset", "key", "value");
    @Override
    public List<Object> apply(ConsumerRecord<K, V> record) {
        return new Values(record.topic(),
                record.partition(),
                record.offset(),
                record.key(),
                record.value());
    }

    @Override
    public Fields getFieldsFor(String stream) {
        return FIELDS;
    }

    @Override
    public List<String> streams() {
        return DEFAULT_STREAM;
    }
}

3.4 啟動測試

這裡啟動一個生產者用於傳送測試資料，啟動命令如下：

# bin/kafka-console-producer.sh --broker-list hadoop001:9092 --topic storm-topic

本地執行的專案接收到從 Kafka 傳送過來的資料：

用例原始碼下載地址：storm-kafka-integration

參考資料

Storm Kafka Integration (0.10.x+)

更多大資料系列文章可以參見 GitHub 開源專案：大資料入門指南

相關推薦

Storm 系列（九）—— Storm 整合 Kafka

一、整合說明 Storm 官方對 Kafka 的整合分為兩個版本，官方說明文件分別如下： Storm Kafka Integration : 主要是針對 0.8.x 版本的 Kafka 提供整合支援； Storm Kafka Integration (0.10.x+) : 包含 Kafka 新版本的 con

Storm 系列（七）—— Storm 整合 Redis 詳解

一、簡介 Storm-Redis 提供了 Storm 與 Redis 的整合支援，你只需要引入對應的依賴即可使用： <dependency> <groupId>org.apache.storm</groupId> <artifactId>stor

Storm 系列（八）—— Storm 整合 HDFS 和 HBase

一、Storm整合HDFS 1.1 專案結構本用例原始碼下載地址：storm-hdfs-integration 1.2 專案主要依賴專案主要依賴如下，有兩個地方需要注意：這裡由於我伺服器上安裝的是 CDH 版本的 Hadoop，在匯入依賴時引入的也是 CDH 版本的依賴，需要使用 <

Storm 系列（五）—— Storm 程式設計模型詳解

一、簡介下圖為 Strom 的執行流程圖，在開發 Storm 流處理程式時，我們需要採用內建或自定義實現 spout(資料來源) 和 bolt(處理單元)，並通過 TopologyBuilder 將它們之間進行關聯，形成 Topology。二、IComponent介面 IComponent 介面定

SpringBoot 學習系列 | （九）SpringBoot快速整合Redis

話不多說，直接貼程式碼： Maven pom.xml引入依賴  <dependency> <groupId>org.springframework.boot</groupId> <

Storm入門（八）Storm實戰常見問題總結

logger 2.x appenders exec 問題一個新建 round XML 一、本地環境log級別設置問題 storm-core-1.1.0.jar下面有個log4j2.xml文件，默認log級別是info。 <configuration monitor

深入淺出Mybatis系列（九）---強大的動態SQL

tool 復制代碼 otherwise strong sql語句 src sep des col 　　傳統的使用JDBC的方法，相信大家在組合復雜的的SQL語句的時候，需要去拼接，稍不註意哪怕少了個空格，都會導致錯誤。Mybatis的動態SQL功能正是為了解決這種問題

javascript預覽圖片——IT輪子系列（九）

webkit 分享圖片解決 web name javascrip 問題預覽上傳再使用htm控件 <input type="file" name="file" /> 上傳圖片的時候，往往需要先預覽圖片，然後點擊保存按鈕，把圖片上傳到服務器。今天正好解決

Java Thread系列（九）Master-Worker模式

線程支持需要列表 deque 開啟 exc oid src Java Thread系列（九）Master-Worker模式 Master-Worker模式是常用的並行設計模式. 一、Master-Worker 模式核心思想 Master-Worker 系統由兩個角

Java 設計模式系列（九）組合模式

ima 技術分享 client 索引有變 int spa 初始類型 Java 設計模式系列（九）組合模式將對象組合成樹形結構以表示“部分-整體”的層次結構。組合模式使得用戶對單個對象的使用具有一致性。一、組合模式結構 Component：抽象的組件對象，為

Android 常用開源框架源碼解析系列（九）dagger2 呆哥兔依賴註入庫

ica 記得接口手動識別 pda 進行 strace 內聚一、前言依賴註入定義目標類中所依賴的其他的類的初始化過程，不是通過手動編碼的方式創建的。是將其他的類已經初始化好的實例自動註入的目標類中。 “依賴註入”也是面向對象編程的設計模式 ————

ASP.NET SignalR 系列（九）之源碼與總結

pan ie7 集線器增加地址註意 ocs pac mic 1、SignalR 1.0與2.0有些不同，以上篇章均只支持2.0+ 2、必須註意客戶端調用服務端對象和方法時的大小寫問題 3、客戶端上的方法不能重名 4、IE7及以下的，需要增加json的分析器，分析器下載

IDEA系列（九）--上傳項目到github

gibhub port col 右鍵 bar https 不可 nds 選擇設置Git--->設置github--->創建本地倉庫--->上傳項目到本地倉庫--->上傳項目到GitHub 3.安裝成功後打開Git Bash，輸入下列命令，設置git

linux系列（九）：touch命令

時間戳存在負責 creat 創建 rwx lin acc inux 1、命令格式： touch [選項] 文件 2、命令功能： touch命令參數可更改文檔或目錄的日期時間，包括存取時間和更改時間。 3、命令參數： -a 或--tim

深度學習基礎系列（九）| Dropout VS Batch Normalization? 是時候放棄Dropout了深度學習基礎系列（七）| Batch Normalization

　　Dropout是過去幾年非常流行的正則化技術，可有效防止過擬合的發生。但從深度學習的發展趨勢看，Batch Normalizaton(簡稱BN)正在逐步取代Dropout技術，特別是在卷積層。本文將首先引入Dropout的原理和實現，然後觀察現代深度模型Dropout的使用情況，並與BN進行實驗比對，從原

STM32開發筆記55：STM32F4+DP83848乙太網通訊指南系列（九）：自己寫一個ARP協議

本章為系列指南的第九章，終結篇，本章主要來分析一下完整的ARP協議，並在STM32F4中實現一個精簡的ARP協議響應流程。 ARP協議的本質是使區域網內的其他主機能夠知道我在哪兒，比如在區域網上有人衝著所有人喊了一句「IP為XXXX的傢伙，你在哪兒」，我一聽，XXXX不是我的IP嗎，我得回答他啊

微服務 SpringBoot 2.0（九）：整合Mybatis

我是SQL小白，我選Mybatis —— Java面試必修引言在第五章我們已經整合了Thymeleaf頁面框架，第七章也整合了JdbcTemplate，那今天我們再結合資料庫整合Mybatis框架在接下來的文章中，我會用一個開源的部落格原始碼來做講解

Spring5原始碼分析系列（九）Spring事務原理詳解

終於等到了B站的薪資溝通電話，美滋滋，本節開始進入Spring資料訪問篇，講解spring事務，文章參考自Tom老師視訊。事務基本概念事務(Transaction)是訪問並可能更新資料庫中各種資料項的一個程式執行單元(unit)。特點：事務是恢復和併發控制的基

深度學習基礎系列（九）| Dropout VS Batch Normalization? 是時候放棄Dropout了

　　Dropout是過去幾年非常流行的正則化技術，可有效防止過擬合的發生。但從深度學習的發展趨勢看，Batch Normalizaton(簡稱BN)正在逐步取代Dropout技術，特別是在卷積層。本文將首先引入Dropout的原理和實現，然後觀察現代深度模型Dropout的使用情況，並與BN進行實驗比對，從原

Spark原始碼系列（九）Spark SQL初體驗之解析過程詳解

首先宣告一下這個版本的程式碼是1.1的，之前講的都是1.0的。 Spark支援兩種模式，一種是在spark裡面直接寫sql，可以通過sql來查詢物件，類似.net的LINQ一樣，另外一種支援hive的HQL。不管是哪種方式，下面提到的步驟都會有，不同的是具體的執行過程。下面