Storm學習記錄（一、簡介）

阿新 • • 發佈：2019-01-13

一、簡介

Storm是一個免費並開源的分散式實時計算系統。利用Storm可以很容易做到可靠地處理無限的資料流，像Hadoop批量處理大資料一樣，Storm可以實時處理資料。Storm簡單，可以使用任何程式語言。

Storm有如下特點：

程式設計簡單：開發人員只需要關注應用邏輯，而且跟Hadoop類似，Storm提供的程式設計原語也很簡單
高效能，低延遲：可以應用於廣告搜尋引擎這種要求對廣告主的操作進行實時響應的場景。
分散式：可以輕鬆應對資料量大，單機搞不定的場景
可擴充套件：隨著業務發展，資料量和計算量越來越大，系統可水平擴充套件
容錯：單個節點掛了不影響應用

訊息不丟失：保證訊息處理

Storm計算模型：

Topology – DAG有向無環圖的實現：

對於Storm實時計算邏輯的封裝即，由一系列通過資料流相互關聯的Spout、Bolt所組成的拓撲結構

生命週期：此拓撲只要啟動就會一直在叢集中執行，直到手動將其kill，否則不會終止

（區別於MapReduce當中的Job，MR當中的Job在計算執行完成就會終止）

Tuple – 元組：Stream中最小資料組成單元

Stream – 資料流

從Spout中源源不斷傳遞資料給Bolt、以及上一個Bolt傳遞資料給下一個Bolt，所形成的這些資料通道即叫做

Stream

Stream宣告時需給其指定一個Id（預設為Default），實際開發場景中，多使用單一資料流，此時不需要單獨指定StreamId

二、樣例

求sum= 1+2+3+....

新增依賴：

<dependency>
    <groupId>org.apache.storm</groupId>
    <artifactId>storm-core</artifactId>
    <version>1.2.2</version>
    <scope>provided</scope>
</dependency>

public class Test {
    /**
     * 建立拓撲結構，放入叢集執行
     * @param args
     */
    public static void main(String[] args) {
        //構建拓撲結構
        TopologyBuilder tb = new TopologyBuilder();

        tb.setSpout("wsspout",new WordSumSpout());

        tb.setBolt("wsbolt",new WordSumBolt()).shuffleGrouping("wsspout");

//        建立本地叢集
        LocalCluster lc = new LocalCluster();
//        將任務佈置到叢集上
        lc.submitTopology("wordsum",new Config(),tb.createTopology());
    }
}

public class WordSumBolt extends BaseRichBolt {
    Map map;
    TopologyContext context;
    OutputCollector collector;

    int sum = 0;

    @Override
    public void prepare(Map map, TopologyContext context, OutputCollector collector) {
        this.map = map;
        this.collector = collector;
        this.context = context;
    }

    /**
     * 獲取資料（有必要的話，向後繼續傳送資料）
     */
    @Override
    public void execute(Tuple tuple) {
//        tuple.getInteger(0);
        int num = tuple.getIntegerByField("num");
        sum += num;

        System.out.println("sum: ------" + sum);
    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer outputFieldsDeclarer) {

    }
}

public class WordSumSpout extends BaseRichSpout {
    Map map;
    TopologyContext context;
    SpoutOutputCollector collector;
    int i =0;

    /**
     * 配置初始化spout類
     */
    @Override
    public void open(Map map, TopologyContext context, SpoutOutputCollector collector) {
        this.map = map;
        this.context = context;
        this.collector = collector;
    }

    /**
     * 採集並向後推送資料
     */
    @Override
    public void nextTuple() {
        i++;
        List num = new Values(i);
        this.collector.emit(num);

        System.err.println("Spout:-------- "+i);
        Utils.sleep(1000);
    }

    /**
     * 向接收資料的邏輯單元傳送資料的欄位名稱
     */
    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("num"));
    }
}

統計單詞出現個數：

public class Test {
    public static void main(String[] args) {
        TopologyBuilder tb = new TopologyBuilder();
        tb.setSpout("wcspout",new WcSpout());
        tb.setBolt("wspiltbolt",new WspiltBolt()).shuffleGrouping("wcspout");
//        fieldsGrouping: 只傳到同一個bolt處理
        tb.setBolt("wcountbolt",new WcountBolt(),3).fieldsGrouping("wspiltbolt",new Fields("word"));

        LocalCluster lc =new LocalCluster();
        lc.submitTopology("wordcount",new Config(),tb.createTopology());

    }
}

public class WcountBolt extends BaseRichBolt {

    //用來統計單詞及次數
    Map<String, Integer> map = new HashMap<>();

    @Override
    public void prepare(Map map, TopologyContext topologyContext, OutputCollector collector) {
    }

    /**
     * 獲取tuple中的每個單詞，並按照單詞統計出現的次數
     */
    @Override
    public void execute(Tuple tuple) {
        String word = tuple.getStringByField("word");

        if (map.containsKey(word)) {
            map.put(word, map.get(word) + 1);
        } else {
            map.put(word, 1);
        }

        System.out.println(word +"--------"+map.get(word));
    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
    }
}

public class WcSpout extends BaseRichSpout {

    SpoutOutputCollector collector;
    //模擬資料
    String[] text = {
            "hello Sam", "hello Tom", "hello Jetty"
    };
    Random r = new Random();

    @Override
    public void open(Map map, TopologyContext topologyContext, SpoutOutputCollector collector) {
        this.collector = collector;
    }

    //    隨機向後傳送字串
    @Override
    public void nextTuple() {
        List line = new Values(text[r.nextInt(text.length)]);
        this.collector.emit(line);
        System.out.println("spout emit: -------" + line);
        Utils.sleep(1000);
    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("line"));
    }
}

public class WspiltBolt extends BaseRichBolt{

    OutputCollector collector;
    @Override
    public void prepare(Map map, TopologyContext topologyContext, OutputCollector collector) {
        this.collector = collector;
    }

    /**
     * 獲取每一行並切割
     */
    @Override
    public void execute(Tuple tuple) {
        String line = tuple.getString(0);
        String[] words = line.split(" ");

        for (String word:words){
            this.collector.emit(new Values(word));
        }
    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("word"));
    }
}

Storm學習記錄（一、簡介）

一、簡介 Storm是一個免費並開源的分散式實時計算系統。利用Storm可以很容易做到可靠地處理無限的資料流，像Hadoop批量處理大資料一樣，Storm可以實時處理資料。Storm簡單，可以使用任何程式語言。 Storm有如下特點：程式設計簡單：開發人員只需要關注應用邏輯，而且

快學Scala學習記錄（一、scala簡介）

一、概述 1.1面向物件特性 Scala是一種純面向物件的語言，每個值都是物件。物件的資料型別以及行為由類和特質描述。類抽象機制的擴充套件有兩種途徑：一種途徑是子類繼承，另一種途徑是靈活的混入機制。這兩種途徑能避免多重繼承的種種問題。 1.2函數語言程式設計 Scala也是一種

Hadoop學習記錄（一、Hadoop叢集的搭建）

參考：http://www.zuidemo.com/filePreview/pdfFilePreview/11202並進行補充 1.新建七個centos7系統的虛擬機器，分別命名為cluster1,cluster2等。關閉防火牆。 2.七臺主機都修改host檔案 vi /etc/host

Storm學習記錄（四、併發機制和通訊機制）

一、併發機制 Worker – 程序：一個Topology拓撲會包含一個或多個Worker（每個Worker程序只能從屬於一個特定的Topology）這些Worker程序會並行跑在叢集中不同的伺服器上，即一個Topology拓撲其實是由並行執行在Storm叢集中多臺伺服器上的程序所組成

Storm學習記錄（三、Storm叢集搭建）

一、單機搭建 1.上傳並解壓jar包 2.在storm目錄下建立logs目錄，以儲存程式執行時的資訊 mkdir logs 3.在bin目錄下執行命令，啟動zookeeper ./storm dev-zookeeper >> ../logs/dev-zookeeper

Storm學習記錄（二、分發策略與架構）

一、分發策略 Shuffle Grouping：隨機分組，隨機派發stream裡面的tuple，保證每個bolt task接收到的tuple數目大致相同。輪詢，平均分配 Fields Grouping：按欄位分組，比如，按"user-id"這個欄位來分組，那麼具有同樣"u

spark學習記錄（一、scala與java編寫wordCount比較）

新增依賴： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12<

Hadoop學習記錄（三、MapReduce）

1.將一個日誌檔案上傳到hdfs上 2. 編寫mapReduce程式碼 2.1新建一個maven專案，新增依賴 <dependencies> <dependency> <groupId>

spark學習記錄（二、RDD）

一、概念 RDD（Resilient Distributed Dataset）叫做彈性分散式資料集，是Spark中最基本的資料抽象，它代表一個不可變、可分割槽、裡面的元素可平行計算的集合。RDD具有資料流模型的特點：自動容錯、位置感知性排程和可伸縮性。RDD允許使用者在執行多個查詢時顯式地將工作

spark學習記錄（十三、SparkStreaming）

一、SparkStreaming簡介 SparkStreaming是流式處理框架，是Spark API的擴充套件，支援可擴充套件、高吞吐量、容錯的實時資料流處理，實時資料的來源可以是：Kafka, Flume, Twitter, ZeroMQ或者TCP sockets，並且可以使用高階功能的複雜

spark學習記錄（十、SparkSQL）

一、介紹 SparkSQL支援查詢原生的RDD。 RDD是Spark平臺的核心概念，是Spark能夠高效的處理大資料的各種場景的基礎。能夠在Scala中寫SQL語句。支援簡單的SQL語法檢查，能夠在Scala中寫Hive語句訪問Hive資料，並將結果取回作為RDD使用。 D

Centos6.10下Open-falcon學習記錄（一）——自定義資料採集、歷史查詢、程序監控

記錄了學習過程，官方文件地址http://book.open-falcon.org/zh_0_2/usage/getting-started.html 另外還看了Open-falcon作者的寫的設計理念的文，見open-falcon編寫的整個腦洞歷程 1 自定義資料採集自定義的資料要求

雲、虛擬化學習記錄（一）

這段時間在瞭解雲、虛擬機器方面的知識。聽了幾次培訓，先將能理解的東西記下來。虛擬技術：我自己理解的如下所描述（暫時）：我理解的虛擬技術在實現上應該分上圖四部分： 1.真正的硬體資源 2.中間層中間層的目的就是隔離真實的物理資源，或者將真實的物理資源抽象成一個個的

linux學習記錄（一）

設備 ima 權限 logs spf style www. 塊設備 alt 1、各種顏色文件的含義黃色表示設備文件灰色表示其它文件白色表示普通文件綠色表示可執行文件；紅色表示壓縮文件；淺藍色表示鏈接文件；灰色表示其它文件；紅色閃爍表示鏈接的文件有問題了；

Node.js的學習入門（一、module.exports與exports）

user clas ret class script say req 引用 ole /*User.js*/ exports.userName = ‘Tom‘; exports.sayHello = function () { return ‘wwwwww‘ } /

vue學習記錄（一）—— vue開發調試神器vue-devtools安裝

shell gist 項目擴展工具 code blog manifest false .net 網上有些貼子少了至關重要的一步導致我一直沒裝上，切記！！install後還需build，且install和build都在vue-devtools文件夾內執行 github下載

java一周學習記錄（2017/12/2）

統計考試 lib 學習記錄 body width bsp 程序 table 姓名：Danny 日期：2017/12/2 任務日期聽課編程程序閱讀課本準備考試考試周六加

微信小程序學習記錄（一）

地址 n) taf forest 對象復制 strong display exp 價格如何定義一個全局變量： 1，在根目錄下app.js中添加 App({ globalData: { g_isPlayingMusic : false, g_curre

SpringBoot學習記錄（一）

not website snap 對象 mpi method oid pom pid 1. Spring的Java配置方式 Java配置是Spring4.x推薦的配置方式，可以完全替代xml配置。 1.1. @Configuration 和 @Bean Spring的Jav

python+selenium+unittest+pageobject學習記錄（一）

exceptio 單元測試框架回憶 stc ui自動化 import list 測試的 add 學習selenium已經一個月了，簡單概括一下學習的步驟，方便以後回憶。一. 自動化測試的一些概念　　1.分層的自動化測試：unit-->service-->U

Storm學習記錄（一、簡介）

一、簡介

二、樣例

相關推薦