1. 程式人生 > >最詳細的Storm入門教程(一)

最詳細的Storm入門教程(一)

Storm簡介

Apache Storm是一個分散式實時大資料處理系統。Storm設計用於在容錯和水平可擴充套件方法中處理大量資料。

Storm框架主要由7部分組成

Topology:一個實時應用的計算任務被打包作為Topology釋出,這同Hadoop的MapReduce任務相似。
Spout:Storm中的訊息源,用於為Topology生產訊息(資料),一般是從外部資料來源(如Message Queue、RDBMS、NoSQL、Realtime Log)不間斷地讀取資料併發送給Topology訊息(tuple元組)。
Bolt:Storm中的訊息處理者,用於為Topology進行訊息的處理,Bolt可以執行過濾,聚合, 查詢資料庫等操作,而且可以一級一級的進行處理。
Stream:產生的資料(tuple元組)。
Stream grouping:在Bolt任務中定義的Stream進行區分。
Task:每個Spout或者Bolt在叢集執行許多工。
Worker:Topology跨一個或多個Worker節點的程序執行。

Window開發環境安裝

1、安裝JDK
下載最新的JDK1.8安裝,這裡不詳述

配置環境變數
新建系統變數:JAVA_HOME 、CLASSPATH 和Path
變數名:JAVA_HOME
變數值:C:\Program Files\Java\jdk1.8.0_144
變數名:CLASSPATH
變數值:.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar
變數名:Path
變數值:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;
注意: 變數名JAVA_HOME 的變數值是要根據你自己安裝jdk的檔案目錄,因此如果你更改了安裝檔案目錄,就可能和我所給出的不一樣;

檢視是否安裝成功
檢視JDK是否安裝成功

解壓到指定資料夾,如:D:\Program Files\apache-maven-3.5.0

配置環境變數

新建系統變數
變數名:MAVEN_HOME
變數值:D:\Program Files\apache-maven-3.5.0
變數名:M2_HOME
變數值:D:\Program Files\apache-maven-3.5.0
變數名:Path 
變數值:%MAVEN_HOME%\bin;%M2_HOME%\bin;

檢視Maven是否安裝成功
檢視Maven是否安裝成功

你可以下載Eclipse IDE for Java Developers,或者Eclipse IDE for Java EE Developers
主要區別是Java EE多一些Java Web開發相關元件

下載後解壓到指定目錄即可

Eclipse配置Maven

首先修改Maven配置:
D:\Program Files\apache-maven-3.5.0\conf\settings.xml

<!-- 修改倉庫儲存目錄 -->
<localRepository>E:\Java\Maven\repository</localRepository>

<!-- 新增內地映象,開發時,如果發現內地映象有問題,可取消映象,自行翻牆 -->
<mirrors>
<mirror>
  <id>alimaven</id>
  <name>aliyun maven</name>
  <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
  <mirrorOf>central</mirrorOf>        
</mirror>
</mirrors>

Eclipse開啟 Window–>Preferences–>Maven

配置maven安裝目錄

配置maven安裝目錄

配置User Settings
配置User Settings

注:點選Update Settings按鈕,點選Apply

新建專案

新建Maven專案

新建Maven專案

新建Maven專案

配置pom.xml
配置pom

注:下方可切換到程式碼模式

新增storm依賴

新增storm依賴
<dependency>
  <groupId>org.apache.storm</groupId>
  <artifactId>storm-core</artifactId>
  <version>1.0.4</version>
</dependency>

配置完成,這時Maven已為你自動下載storm相關的jar包

Maven依賴包

到此,我們的專案已配置完成,可以進行Storm入門開發了。
有同學可能會疑問,為什麼沒有安裝storm?

同學別急,這時因為我們使用Maven配置,Maven已為我們自動下載Storm相關的依賴包,在Eclipse已經可以正常執行。

如果你不是使用Maven,那麼需要下載Storm安裝,並需在Eclipse自行新增依賴包,如Storm依賴包可能在這個目錄:
D:\Program Files\apache-storm-1.0.4\lib

我們這裡使用Maven,所以不用這麼麻煩。

當然,如果你開發完成,需要真實發布你的jar包,那麼才需要安裝Storm進行測試。

下一節我們詳細講解一個入門例項