Storm 系列（八）—— Storm 整合 HDFS 和 HBase

一、Storm整合HDFS

1.1 專案結構

本用例原始碼下載地址：storm-hdfs-integration

1.2 專案主要依賴

專案主要依賴如下，有兩個地方需要注意：

這裡由於我伺服器上安裝的是 CDH 版本的 Hadoop，在匯入依賴時引入的也是 CDH 版本的依賴，需要使用 <repository> 標籤指定 CDH 的倉庫地址；
hadoop-common、hadoop-client、hadoop-hdfs 均需要排除 slf4j-log4j12 依賴，原因是 storm-core 中已經有該依賴，不排除的話有 JAR 包衝突的風險；

<properties>
    <storm.version>1.2.2</storm.version>
</properties>

<repositories>
    <repository>
        <id>cloudera</id>
        <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>org.apache.storm</groupId>
        <artifactId>storm-core</artifactId>
        <version>${storm.version}</version>
    </dependency>
    <!--Storm 整合 HDFS 依賴-->
    <dependency>
        <groupId>org.apache.storm</groupId>
        <artifactId>storm-hdfs</artifactId>
        <version>${storm.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>2.6.0-cdh5.15.2</version>
        <exclusions>
            <exclusion>
                <groupId>org.slf4j</groupId>
                <artifactId>slf4j-log4j12</artifactId>
            </exclusion>
        </exclusions>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>2.6.0-cdh5.15.2</version>
        <exclusions>
            <exclusion>
                <groupId>org.slf4j</groupId>
                <artifactId>slf4j-log4j12</artifactId>
            </exclusion>
        </exclusions>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-hdfs</artifactId>
        <version>2.6.0-cdh5.15.2</version>
        <exclusions>
            <exclusion>
                <groupId>org.slf4j</groupId>
                <artifactId>slf4j-log4j12</artifactId>
            </exclusion>
        </exclusions>
    </dependency>
</dependencies>

1.3 DataSourceSpout

/**
 * 產生詞頻樣本的資料來源
 */
public class DataSourceSpout extends BaseRichSpout {

    private List<String> list = Arrays.asList("Spark", "Hadoop", "HBase", "Storm", "Flink", "Hive");

    private SpoutOutputCollector spoutOutputCollector;

    @Override
    public void open(Map map, TopologyContext topologyContext, SpoutOutputCollector spoutOutputCollector) {
        this.spoutOutputCollector = spoutOutputCollector;
    }

    @Override
    public void nextTuple() {
        // 模擬產生資料
        String lineData = productData();
        spoutOutputCollector.emit(new Values(lineData));
        Utils.sleep(1000);
    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer outputFieldsDeclarer) {
        outputFieldsDeclarer.declare(new Fields("line"));
    }


    /**
     * 模擬資料
     */
    private String productData() {
        Collections.shuffle(list);
        Random random = new Random();
        int endIndex = random.nextInt(list.size()) % (list.size()) + 1;
        return StringUtils.join(list.toArray(), "\t", 0, endIndex);
    }

}

產生的模擬資料格式如下：

Spark   HBase
Hive    Flink   Storm   Hadoop  HBase   Spark
Flink
HBase   Storm
HBase   Hadoop  Hive    Flink
HBase   Flink   Hive    Storm
Hive    Flink   Hadoop
HBase   Hive
Hadoop  Spark   HBase   Storm

1.4 將資料儲存到HDFS

這裡 HDFS 的地址和資料儲存路徑均使用了硬編碼，在實際開發中可以通過外部傳參指定，這樣程式更為靈活。

public class DataToHdfsApp {

    private static final String DATA_SOURCE_SPOUT = "dataSourceSpout";
    private static final String HDFS_BOLT = "hdfsBolt";

    public static void main(String[] args) {

        // 指定 Hadoop 的使用者名稱 如果不指定,則在 HDFS 建立目錄時候有可能丟擲無許可權的異常 (RemoteException: Permission denied)
        System.setProperty("HADOOP_USER_NAME", "root");

        // 定義輸出欄位 (Field) 之間的分隔符
        RecordFormat format = new DelimitedRecordFormat()
                .withFieldDelimiter("|");

        // 同步策略: 每 100 個 tuples 之後就會把資料從快取重新整理到 HDFS 中
        SyncPolicy syncPolicy = new CountSyncPolicy(100);

        // 檔案策略: 每個檔案大小上限 1M,超過限定時,建立新檔案並繼續寫入
        FileRotationPolicy rotationPolicy = new FileSizeRotationPolicy(1.0f, Units.MB);

        // 定義儲存路徑
        FileNameFormat fileNameFormat = new DefaultFileNameFormat()
                .withPath("/storm-hdfs/");

        // 定義 HdfsBolt
        HdfsBolt hdfsBolt = new HdfsBolt()
                .withFsUrl("hdfs://hadoop001:8020")
                .withFileNameFormat(fileNameFormat)
                .withRecordFormat(format)
                .withRotationPolicy(rotationPolicy)
                .withSyncPolicy(syncPolicy);


        // 構建 Topology
        TopologyBuilder builder = new TopologyBuilder();
        builder.setSpout(DATA_SOURCE_SPOUT, new DataSourceSpout());
        // save to HDFS
        builder.setBolt(HDFS_BOLT, hdfsBolt, 1).shuffleGrouping(DATA_SOURCE_SPOUT);


        // 如果外部傳參 cluster 則代表線上環境啟動,否則代表本地啟動
        if (args.length > 0 && args[0].equals("cluster")) {
            try {
                StormSubmitter.submitTopology("ClusterDataToHdfsApp", new Config(), builder.createTopology());
            } catch (AlreadyAliveException | InvalidTopologyException | AuthorizationException e) {
                e.printStackTrace();
            }
        } else {
            LocalCluster cluster = new LocalCluster();
            cluster.submitTopology("LocalDataToHdfsApp",
                    new Config(), builder.createTopology());
        }
    }
}

1.5 啟動測試

可以用直接使用本地模式執行，也可以打包後提交到伺服器叢集執行。本倉庫提供的原始碼預設採用 maven-shade-plugin 進行打包，打包命令如下：

# mvn clean package -D maven.test.skip=true

執行後，資料會儲存到 HDFS 的 /storm-hdfs 目錄下。使用以下命令可以檢視目錄內容：

# 檢視目錄內容
hadoop fs -ls /storm-hdfs
# 監聽文內容變化
hadoop fs -tail -f /strom-hdfs/檔名

二、Storm整合HBase

2.1 專案結構

整合用例：進行詞頻統計並將最後的結果儲存到 HBase，專案主要結構如下：

本用例原始碼下載地址：storm-hbase-integration

2.2 專案主要依賴

 <properties>
        <storm.version>1.2.2</storm.version>
    </properties>


    <dependencies>
        <dependency>
            <groupId>org.apache.storm</groupId>
            <artifactId>storm-core</artifactId>
            <version>${storm.version}</version>
        </dependency>
        <!--Storm 整合 HBase 依賴-->
        <dependency>
            <groupId>org.apache.storm</groupId>
            <artifactId>storm-hbase</artifactId>
            <version>${storm.version}</version>
        </dependency>
    </dependencies>

2.3 DataSourceSpout

/**
 * 產生詞頻樣本的資料來源
 */
public class DataSourceSpout extends BaseRichSpout {

    private List<String> list = Arrays.asList("Spark", "Hadoop", "HBase", "Storm", "Flink", "Hive");

    private SpoutOutputCollector spoutOutputCollector;

    @Override
    public void open(Map map, TopologyContext topologyContext, SpoutOutputCollector spoutOutputCollector) {
        this.spoutOutputCollector = spoutOutputCollector;
    }

    @Override
    public void nextTuple() {
        // 模擬產生資料
        String lineData = productData();
        spoutOutputCollector.emit(new Values(lineData));
        Utils.sleep(1000);
    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer outputFieldsDeclarer) {
        outputFieldsDeclarer.declare(new Fields("line"));
    }


    /**
     * 模擬資料
     */
    private String productData() {
        Collections.shuffle(list);
        Random random = new Random();
        int endIndex = random.nextInt(list.size()) % (list.size()) + 1;
        return StringUtils.join(list.toArray(), "\t", 0, endIndex);
    }

}

產生的模擬資料格式如下：

Spark   HBase
Hive    Flink   Storm   Hadoop  HBase   Spark
Flink
HBase   Storm
HBase   Hadoop  Hive    Flink
HBase   Flink   Hive    Storm
Hive    Flink   Hadoop
HBase   Hive
Hadoop  Spark   HBase   Storm

2.4 SplitBolt

/**
 * 將每行資料按照指定分隔符進行拆分
 */
public class SplitBolt extends BaseRichBolt {

    private OutputCollector collector;

    @Override
    public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {
        this.collector = collector;
    }

    @Override
    public void execute(Tuple input) {
        String line = input.getStringByField("line");
        String[] words = line.split("\t");
        for (String word : words) {
            collector.emit(tuple(word, 1));
        }
    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("word", "count"));
    }
}

2.5 CountBolt

/**
 * 進行詞頻統計
 */
public class CountBolt extends BaseRichBolt {

    private Map<String, Integer> counts = new HashMap<>();

    private OutputCollector collector;


    @Override
    public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {
            this.collector=collector;
    }

    @Override
    public void execute(Tuple input) {
        String word = input.getStringByField("word");
        Integer count = counts.get(word);
        if (count == null) {
            count = 0;
        }
        count++;
        counts.put(word, count);
        // 輸出
        collector.emit(new Values(word, String.valueOf(count)));

    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("word", "count"));
    }
}

2.6 WordCountToHBaseApp

/**
 * 進行詞頻統計 並將統計結果儲存到 HBase 中
 */
public class WordCountToHBaseApp {

    private static final String DATA_SOURCE_SPOUT = "dataSourceSpout";
    private static final String SPLIT_BOLT = "splitBolt";
    private static final String COUNT_BOLT = "countBolt";
    private static final String HBASE_BOLT = "hbaseBolt";

    public static void main(String[] args) {

        // storm 的配置
        Config config = new Config();

        // HBase 的配置
        Map<String, Object> hbConf = new HashMap<>();
        hbConf.put("hbase.rootdir", "hdfs://hadoop001:8020/hbase");
        hbConf.put("hbase.zookeeper.quorum", "hadoop001:2181");

        // 將 HBase 的配置傳入 Storm 的配置中
        config.put("hbase.conf", hbConf);

        // 定義流資料與 HBase 中資料的對映
        SimpleHBaseMapper mapper = new SimpleHBaseMapper()
                .withRowKeyField("word")
                .withColumnFields(new Fields("word","count"))
                .withColumnFamily("info");

        /*
         * 給 HBaseBolt 傳入表名、資料對映關係、和 HBase 的配置資訊
         * 表需要預先建立: create 'WordCount','info'
         */
        HBaseBolt hbase = new HBaseBolt("WordCount", mapper)
                .withConfigKey("hbase.conf");

        // 構建 Topology
        TopologyBuilder builder = new TopologyBuilder();
        builder.setSpout(DATA_SOURCE_SPOUT, new DataSourceSpout(),1);
        // split
        builder.setBolt(SPLIT_BOLT, new SplitBolt(), 1).shuffleGrouping(DATA_SOURCE_SPOUT);
        // count
        builder.setBolt(COUNT_BOLT, new CountBolt(),1).shuffleGrouping(SPLIT_BOLT);
        // save to HBase
        builder.setBolt(HBASE_BOLT, hbase, 1).shuffleGrouping(COUNT_BOLT);


        // 如果外部傳參 cluster 則代表線上環境啟動,否則代表本地啟動
        if (args.length > 0 && args[0].equals("cluster")) {
            try {
                StormSubmitter.submitTopology("ClusterWordCountToRedisApp", config, builder.createTopology());
            } catch (AlreadyAliveException | InvalidTopologyException | AuthorizationException e) {
                e.printStackTrace();
            }
        } else {
            LocalCluster cluster = new LocalCluster();
            cluster.submitTopology("LocalWordCountToRedisApp",
                    config, builder.createTopology());
        }
    }
}

2.7 啟動測試

可以用直接使用本地模式執行，也可以打包後提交到伺服器叢集執行。本倉庫提供的原始碼預設採用 maven-shade-plugin 進行打包，打包命令如下：

# mvn clean package -D maven.test.skip=true

執行後，資料會儲存到 HBase 的 WordCount 表中。使用以下命令查看錶的內容：

hbase >  scan 'WordCount'

2.8 withCounterFields

在上面的用例中我們是手動編碼來實現詞頻統計，並將最後的結果儲存到 HBase 中。其實也可以在構建 SimpleHBaseMapper 的時候通過 withCounterFields 指定 count 欄位，被指定的欄位會自動進行累加操作，這樣也可以實現詞頻統計。需要注意的是 withCounterFields 指定的欄位必須是 Long 型別，不能是 String 型別。

SimpleHBaseMapper mapper = new SimpleHBaseMapper() 
        .withRowKeyField("word")
        .withColumnFields(new Fields("word"))
        .withCounterFields(new Fields("count"))
        .withColumnFamily("cf");

參考資料

Apache HDFS Integration
Apache HBase Integration

更多大資料系列文章可以參見 GitHub 開源專案：大資料入門指南

相關推薦

Storm 系列（八）—— Storm 整合 HDFS 和 HBase

一、Storm整合HDFS 1.1 專案結構本用例原始碼下載地址：storm-hdfs-integration 1.2 專案主要依賴專案主要依賴如下，有兩個地方需要注意：這裡由於我伺服器上安裝的是 CDH 版本的 Hadoop，在匯入依賴時引入的也是 CDH 版本的依賴，需要使用 <

Storm 系列（七）—— Storm 整合 Redis 詳解

一、簡介 Storm-Redis 提供了 Storm 與 Redis 的整合支援，你只需要引入對應的依賴即可使用： <dependency> <groupId>org.apache.storm</groupId> <artifactId>stor

Storm 系列（九）—— Storm 整合 Kafka

一、整合說明 Storm 官方對 Kafka 的整合分為兩個版本，官方說明文件分別如下： Storm Kafka Integration : 主要是針對 0.8.x 版本的 Kafka 提供整合支援； Storm Kafka Integration (0.10.x+) : 包含 Kafka 新版本的 con

Storm入門（八）Storm實戰常見問題總結

logger 2.x appenders exec 問題一個新建 round XML 一、本地環境log級別設置問題 storm-core-1.1.0.jar下面有個log4j2.xml文件，默認log級別是info。 <configuration monitor

Storm 系列（五）—— Storm 程式設計模型詳解

一、簡介下圖為 Strom 的執行流程圖，在開發 Storm 流處理程式時，我們需要採用內建或自定義實現 spout(資料來源) 和 bolt(處理單元)，並通過 TopologyBuilder 將它們之間進行關聯，形成 Topology。二、IComponent介面 IComponent 介面定

Spring Boot入門系列（八）整合定時任務Task，一秒搞定定時任務

前面介紹了Spring Boot 中的整合Redis快取已經如何實現資料快取功能。不清楚的朋友可以看看之前的文章：https://www.cnblogs.com/zhangweizhong/category/1657780.html。今天主要講解Springboot整合定時任務。在SpringMvc中也會用

uml系列（八）——部署圖與構件圖

復雜數據 net 打包 img 之前說明而且 bsp 之前說了uml的設計圖，現在說一下uml的最後兩種圖：構件圖、部署圖。這兩種圖之所以放在一起是因為它們都是軟件的實現圖。構件圖構件圖是描述一組構件之間

SpringMVC系列（八）國際化

enc undle charset ucc tid utf pre 獲取值 -c 1.在pom.xml引入國際化需要的依賴 1  2 <dependency> 3 <groupI

winform 寫App.config配置文件——IT輪子系列（八）

項目 ble .exe private conf 遇到配置信息操作 src 前言在winform項目中，常常需要讀app.config文件。如： 1 var version = System.Configuration.ConfigurationManager.Ap

Docker入門與應用系列（八）Docker圖形界面管理之Shipyard

tps 數據庫 sock blog ocs body mage 代理 cell Shipyard基於Docker API實現的容器圖形管理系統，支持container、images、engine、cluster等功能，可滿足我們基本的容器部署需求可堆棧的Docker管理基於

SQL系列（八）—— 分組（group by）

出了常用 sql select group 數量通過報錯 mysql 在很多場景時，需要對數據按照某條件進行分組統計其數量、平均值等等。有這種需求，SQL自然也有解決方式。在SQL中通過group by子句對結果按某條件進行分組。語法： select count(c

企業級 SpringBoot 教程（八）springboot整合mongodb

tom with 自定義 let 企業 ice system face find 準備工作安裝 MongoDB jdk 1.8 maven 3.0 idea 環境依賴在pom文件引入spring-boot-starter-data-mongodb依賴： <d

apache ignite系列（八）：問題彙總

1，java.lang.ClassNotFoundException Unknown pair 1.Please try to turn on isStoreKeepBinary in cache settings - like this; please note the last line: down

springboot（八）：整合多資料來源

資料來源是如何劃分：　　按包名（業務）和註解劃分；例如：com.test.learn01----使用datasource1； com.test.learn02----使用datasource2。專案目錄結構：配置檔案中新增兩個資料來源建立資料來源DataSource1

STM32開發筆記54：STM32F4+DP83848乙太網通訊指南系列（八）：收包流程

本章為系列指南的第八章，講述如何使用STM32F407晶片配合DP83848進行乙太網資料的收包流程，將監聽到的網路包資料通過UART傳給PC，同時輔以WireShark監聽對比驗證。關於UART，也就是串列埠通訊的使用，這裡不做贅述，我們這裡預設兩個函式分別為UART6Init()和UART

Oracle索引梳理系列（八）- 索引掃描型別及分析（高效索引必備知識）

理解oracle索引掃描型別的特點以及具體觸發的條件，對於通過合理地使用索引，進行sql優化至關重要（例如組合索引的引導列的選擇問題）。在總結索引掃描型別前，需要再次強調關於索引特點的幾個關鍵點：對於單一列建立的索引，既單一列索引，b-tree中不儲存索引列的null值資訊

深度學習基礎系列（八）| 偏差和方差

　　當我們費勁周章不斷調參來訓練模型時，不可避免地會思考一系列問題，模型好壞的評判標準是什麼？改善模型的依據何在？何時停止訓練為佳？　　要解決上述問題，我們需要引入偏差和方差這兩個概念，理解他們很重要，也是後續瞭解過擬合、正則化、提早終止訓練、資料增強等概念和方法的前提。一、概念定義偏差（bias）

分散式快取技術redis學習系列（八）——JedisCluster原始碼解讀：叢集初始化、slot(槽)的分配、值的存取

redis叢集環境，客戶端使用JedisCluster獲取連線並操作redis服務，上一篇分散式快取技術redis學習系列（七）——spring整合jediscluster 簡單介紹了spring使用JedisCluster，這篇從JedisCluster原始

分散式快取技術redis學習系列（七）——spring整合jediscluster

1、maven依賴 <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version

前端學習系列——（八）CSS樣式優先順序

不知道你有沒有遇到這樣一種情況，語法正確、單詞正確，但是樣式就是無法應用，而是使用的不知道在哪寫過的一個樣式，然後你就偷懶使用!important讓樣式生效。哈哈哈，反正我遇到過，而且這麼做了。其實這個問題的出現，是因為樣式存在優先順序規則。如果瞭解了樣式