1. 程式人生 > >Storm(1.2.1)叢集環境搭建

Storm(1.2.1)叢集環境搭建

1,Storm基礎介紹:

Storm作為大資料處理框架之一,其和Spark一樣具有非常廣泛的使用,如下為Storm的架構圖:

 在瞭解叢集配置安裝之前需要掌握如下幾個概念(concept):

  1. 拓撲(Topologies):類似Hadoop的MapReduce 的任務(Job),區別在於 MapReduce 的一個 Job 在得到結果之後總會結束,而拓撲會一直在叢集中執行,直到被手動終止。
  2. 流(Streams):資料流(Streams)是 Storm 中最核心的抽象概念。一個數據流指的是在分散式環境中並行建立、處理的一組元組(tuple)的無界序列。
  3. 資料來源(Spouts):資料來源(Spout)是拓撲中資料流的來源。一般 Spout 會從一個外部的資料來源讀取元組然後將他們傳送到拓撲中。根據需求的不同,Spout 既可以定義為
    可靠的資料來源,也可以定義為不可靠的資料來源。
  4. 資料流處理元件(Bolts):拓撲中所有的資料處理均是由 Bolt 完成的。通過資料過濾(filtering)、函式處理(functions)、聚合(aggregations)、聯結(joins)、資料庫互動等功能,Bolt 幾乎能夠完成任何一種資料處理需求。
  5. 資料流分組(Stream groupings):為拓撲中的每個 Bolt 的確定輸入資料流是定義一個拓撲的重要環節。資料流分組定義了在 Bolt 的不同任務(tasks)中劃分資料流的方式。
  6. 可靠性(Reliability)
  7. 任務(Tasks):在 Storm 叢集中每個 Spout 和 Bolt 都由若干個任務(tasks)來執行。
  8. 工作程序(Workers):拓撲是在一個或多個工作程序(worker processes)中執行的
  9. nimbus:storm叢集的守護程序之一,所以叢集的主管理服務。
  10. supervisor:storm叢集的worker節點,執行任務的機器守護程序。
  11. zookeeper:作為storm叢集的配置管理存在。(zookeeper基本是配置管理的主選軟體)

2,Storm叢集安裝

2.1 叢集部署架構介紹

在192.168.32.150~152三臺主機部署storm叢集,依賴zookeeper完成配置管理及nimbus和supervisor的註冊工作。

--zookeeper
  192.168.32.150
  192.168.32.151
  192.168.32.152
--nimbus
  192.168.32.150
--supbervisor
  192.168.32.151
  192.168.32.152
前置條件:在安裝和配置之前需要保證所有機器JDK7+和python 2.6.6+。

2.2 zookeeper叢集搭建

  2.2.1 下載解壓zookeeper:http://zookeeper.apache.org/releases.html

  2.2.2 修改zookeeper的conf/zoo.cfg檔案,增加如下配置(每臺機器的zookeeper配置均如下)

  clientPort=2181
  server.150=192.168.32.150:2888:3888
  server.151=192.168.32.151:2888:3888
  server.152=192.168.32.152:2888:3888

  2.2.3 啟動zookeeper叢集

在每臺機器上通過zookeeper的bin/zkServer.sh start啟動zk,zookeeper會自動組建叢集。

  2.2.4 zookeeper環境確認:在每臺機器上執行zkServer.sh status檢視其狀態,如

[[email protected] ~]# ./zookeeper/zookeeper-3.4.9/bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /root/zookeeper/zookeeper-3.4.9/bin/../conf/zoo.cfg
Mode: follower

2.3 Storm叢集搭建

  2.3.1 下載解壓storm:http://storm.apache.org/releases/1.2.1

  2.3.2 配置storm,修改conf/storm.yaml檔案,增加如下配置(每臺機器配置均相同):

storm.zookeeper.servers:
      - "192.168.32.150"
      - "192.168.32.151"
      - "192.168.32.152"

storm.zookeeper.port: 2181

storm.local.dir: "/root/storm/storm-local"
nimbus.seeds: ["192.168.32.150"]

supervisor.slots.ports:
    - 6700
    - 6701
    - 6702
    - 6703

storm.health.check.dir: "healthchecks"

storm.health.check.timeout.ms: 5000

其中storm.local.dir指定的目錄需要提前建立,supervisor.slots.ports配置的埠數量決定了每臺supervisor機器的worker數量,每個worker會有自己的監聽埠用於監聽任務。

2.3.3 啟動storm:

在192.168.32.150機器啟動nimbus和監控

#!/bin/sh

STORM_HOME=/root/storm/storm-1.2.1
nohup $STORM_HOME/bin/storm nimbus &
nohup $STORM_HOME/bin/storm ui &

在192.168.32.151和152機器啟動supervisor作為worker

#!/bin/sh

STORM_HOME=/root/storm/storm-1.2.1
nohup $STORM_HOME/bin/storm supervisor &
#nohup $STORM_HOME/bin/storm ui &
3 環境確認

通過瀏覽器訪問ui監控介面,"storm ui"命令執行的機器ip + 預設8080埠,如本例中的http://192.168.32.150:8080


到此,storm叢集搭建完成,主要工作為:1,zookeeper的安裝;2,storm中配置zookeeper的地址;3,分別啟動storm的nimbus和supervisor及監控ui。

下一篇將介紹在此叢集中執行一個Toplogy。

相關推薦

redis3.2.8叢集環境搭建

環境準備 centos6.7 redis3.2.8 安裝步驟 第二步: 解壓壓縮包到中/inner_dev_env/redis-3.2.8 [root@allere /inner_dev_env/redis-3.2.8]# pwd /i

Storm叢集環境搭建1個nimbus+2個supervisor)

Storm是開源的一個分散式實時計算系統,用於資料的實時分析,持續計算,分散式RPC、線上機器學習、ETL等。例如,在電商購物網站購買商品時,會在網頁旁邊或者底端看到與自己所需要商品相關的系列商品,這就是使用類似Storm實時計算去做的。Hadoop適用於海量資料的離

Storm(1.2.1)叢集環境搭建

1,Storm基礎介紹:Storm作為大資料處理框架之一,其和Spark一樣具有非常廣泛的使用,如下為Storm的架構圖: 在瞭解叢集配置安裝之前需要掌握如下幾個概念(concept):拓撲(Topologies):類似Hadoop的MapReduce 的任務(Job),區別

Hadoop-2.7.1叢集環境搭建

摘自:http://blog.csdn.net/u014039577/article/details/49813531 由於日誌資料量越來越大,資料處理的邏輯越來越複雜,同時還涉及到大量日誌需要批處理,當前的flume-kafka-storm-Hbase-web這一套流程已經不能滿足當前的需求了,所以只

Hadoop2.7.1+Hbase1.2.1叢集環境搭建(1)hadoop2.7.1原始碼編譯

        官網目前提供的下載包為32位系統的安裝包,在linux 64位系統下安裝後會一直提示錯誤“WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-j

Hyperledger Fabric v1.1 單機多節點叢集環境搭建

Fabric v1.1 1.環境安裝 1).安裝go 1.9.x 下載地址 http://golang.org/dl/ 配置環境 #go的安裝根目錄 export GOROOT=/usr/local/go #go的工作路徑根目錄 export GOPAT

基於CM搭建的CDH叢集之hive元件升級過程(hive0.13.1升級到hive-1.2.1且確保納入CM管理)

  1、在hive0.13.1版本下建立lib121目錄 cd /opt/cloudera/parcels/CDH/lib/hive;mkdir lib121 2、下載hive1.2.1版本,並將該版本lib下所有檔案拷貝到lib121中 3、修改/opt/cloudera/par

事無鉅細 Spark 1.6.1 叢集環境搭建

還是在之前的Hadoop叢集環境上繼續搭建Spark-1.6.1環境 下載安裝 下載Spark並解壓 wget http://mirrors.cnnic.cn/apache/spark/spark-1.6.1/spark-1.6.1-b

事無鉅細 Apache Kafka 0.9.0.1 叢集環境搭建

Kafka叢集環境依賴於Zookeeper環境。因此我們的環境搭建實際分為兩部分。Zookeeper環境搭建和Kafka環境搭建。 Zookeeper 3.4.8叢集搭建 部署安裝包 下載 wget http://mirrors.cn

hadoop學習1--hadoop2.7.3叢集環境搭建

           下面的部署步驟,除非說明是在哪個伺服器上操作,否則預設為在所有伺服器上都要操作。為了方便,使用root使用者。    1.準備工作    1.1 centOS7伺服器3臺    master    192.168.174.132    node1  

Hadoop-2.6.0+Zookeeper-3.4.6+Spark-1.5.0+Hbase-1.1.2+Hive-1.2.0叢集搭建

前言 本部落格目的在於跟大家分享大資料平臺搭建過程,是筆者半年的結晶。在大資料搭建過程中,希望能給大家提過一些幫助,這也是本部落格的

ZK+Kafka+Spark Streaming叢集環境搭建(九)安裝kafka_2.11-1.1.0

安裝kafka的伺服器:192.168.0.120 master 192.168.0.121 slave1 192.168.0.122 slave2 192.168.0.123 slave3備註:只在slave1,slave2,slave3三個節店上安裝zookeepe

輕鬆搭建Kubernetes 1.2版執行環境

Kubernetes簡稱k8s,是谷歌於2014年開始主導的開源專案,提供了以容器為中心的部署、伸縮和運維平臺。截止目前它的最新版本為1.2。搭建環境之前建議先了解一下kubernetes的相關知識,可以參考《如果有10000臺機器,你想怎麼玩?》系列文章。本文從零開始搭

【ZooKeeper系列】1.ZooKeeper單機版、偽叢集叢集環境搭建

ZooKeeper安裝模式主要有3種: 單機版(Standalone模式)模式:僅有一個ZooKeeper服務 偽叢集模式:單機多個ZooKeeper服務 叢集模式:多機多ZooKeeper服務 1 單機版(Standalone模式)安裝 ZooKeeper官網下載地址:http://zookeeper.

windows8.1+python2.7+selenium環境搭建

不一致 python安裝 download 支持 環境搭建 路徑 變量 python版本 python2.7 有時候,一件事的開始源於一個意想不到的契機。比如這次的換電腦,比如引起的開通博客。 既然需要重新搭建環境,我決定把這個過程記錄下來。 但是大家都知道,搭建環境本

C | C++ 環境搭建 1.Visual Studio 開發環境搭建

visual 環境搭建 studio C | C++ 是我們初級入門的計算機語言之一,現階段用vs環境搭建 第一步: 下載vs軟件,並安裝vs和其幫助軟件MSDN。 在微軟官網下載,或者其他資源。其軟件缺點非開源軟件目前在Win系統搭建。C |

Linux鞏固記錄(1) J2EE開發環境搭建及網絡配置

version 環境 com sco 由於 lin spa node 開發環境 由於要近期使用hadoop等進行相關任務執行,操作linux時候就多了 以前只在linux上配置J2EE項目執行環境,無非配置下jdk,部署tomcat,再通過docker或者jenkins自動

V-1-1 Vmware桌面虛擬化環境搭建之ESXi安裝與配置

vmware vdi esxi 首先將刻錄好的優盤(光盤)插入服務器,並且在啟動選項中選中對應的設備。如何刻錄請參考文檔:O-4 ISO的刻錄如圖所示,將會自動進入安裝進度條當進度條讀取完畢後,可以看到黑黃相間的畫面,其中會顯示安裝的版本,如圖為5.5版本。在加載界面加載完畢後會出現如下畫面,根據

CentOS 6.5 搭建Hadoop 1.2.1集群

nod otn ip地址 maps shuffle 都是 ber 6.5 inux 記錄在64位CentOS 6.5環境下搭建Hadoop 2.5.2集群的步驟,同時遇到問題的解決辦法,這些記錄都僅供參考! 1、操作系統環境配置 1.1、操作系統環境 主機名 IP地址

1.6 selenium3+firefox環境搭建

tar IT 3.6 www. erro support expec eas 方案 1.6 selenium3+firefox環境搭建 有不少小夥伴在安裝selenium環境後啟動firefox報錯,因為現在selenium升級到3.0了,跟2.0的版本還有有一點區別的。(