1. 程式人生 > >【Storm篇】--Storm並發機制

【Storm篇】--Storm並發機制

兩種 worker 行數 blog body hint mta ati pan

一、前述

為了提高Storm的並行能力,通常需要設置並行。

二、具體原理

1. Storm並行分為幾個方面:

Worker – 進程
一個Topology拓撲會包含一個或多個Worker(每個Worker進程只能從屬於一個特定的Topology)
這些Worker進程會並行跑在集群中不同的服務器上,即一個Topology拓撲其實是由並行運行在Storm集群中多臺服務器上的進程所組成

Executor – 線程
Executor是由Worker進程中生成的一個線程
每個Worker進程中會運行拓撲當中的一個或多個Executor線程
一個Executor線程中可以執行一個或多個Task任務(默認每個Executor只執行一個Task任

務),但是這些Task任務都是對應著同一個組件(Spout、Bolt)。

Task
實際執行數據處理的最小單元
每個task即為一個Spout或者一個Bolt

註意:

Task數量在整個Topology生命周期中保持不變,Executor數量可以變化或手動調整
(默認情況下,Task數量和Executor是相同的,即每個Executor線程中默認運行一個Task任務)


2.在程序中具體設置:

設置Worker進程數
Config.setNumWorkers(int workers)

設置Executor線程數
TopologyBuilder.setSpout(String id, IRichSpout spout, Number parallelism_hint)
TopologyBuilder.setBolt(String id, IRichBolt bolt, Number parallelism_hint)
:其中, parallelism_hint即為executor線程數



設置Task數量
ComponentConfigurationDeclarer.setNumTasks(Number val)

例:
Config conf = new Config() ;
conf.setNumWorkers(2);//設置worker數

TopologyBuilder topologyBuilder = new TopologyBuilder();
topologyBuilder.setSpout("spout", new MySpout(), 1);//設置線程數
topologyBuilder.setBolt("green-bolt", new GreenBolt(), 2)
.setNumTasks(4)//設置總共的task數
這個Bolt任務的

.shuffleGrouping("blue-spout);

3.案例詳解

技術分享圖片

4.Rebalance – 再平衡
即,動態調整Topology拓撲的Worker進程數量、以及Executor線程數量

支持兩種調整方式:
1、通過Storm UI
2、通過Storm CLI(一般用這個!!!)

通過Storm CLI動態調整:
例:storm rebalance mytopology -n 5 -e blue-spout=3 -e yellow-bolt=10
將mytopology拓撲worker進程數量調整為5個
“ blue-spout ” 所使用的線程數量調整為3個
“ yellow-bolt ”所使用的線程數量調整為10個

PS:當調整的task或者worker進程超過集群配置時,還是按集群最大配置運行。

【Storm篇】--Storm並發機制