1. 程式人生 > >Flume的安裝及簡單的使用(一)

Flume的安裝及簡單的使用(一)

1.Flume簡介

Flume是Cloudera提供的一個高可用、高可靠、分散式的海量日誌採集、聚合和傳輸的系統。Flume支援在日誌系統中定製各類資料傳送方用於收集資料,同時Flume提供對資料的簡單處理,並將資料處理結果寫入各種資料接收方的能力。
Flume作為Cloudera開發的實時日誌收集系統,受到了業界的認可與廣泛應用。2010年11月Cloudera開源了Flume的第一個可用版本0.9.2,這個系列版本被統稱為Flume-OG。隨著Flume功能的擴充套件,Flume-OG程式碼工程臃腫、核心元件設計不合理、核心配置不標準等缺點暴露出來,尤其是在Flume-OG的最後一個發行版本 0.94.0中,日誌傳輸不穩定的現象尤為嚴重。為了解決這些問題,2011年10月Cloudera重構了核心元件、核心配置和程式碼架構,重構後的版本統稱為Flume-NG。改動的另一原因是將 Flume 納入 Apache 旗下,Cloudera Flume改名為Apache Flume。

2.Flume工作原理

Flume的資料流由事件(Event)貫穿始終。事件是Flume的基本資料單位,它攜帶日誌資料(位元組陣列形式)並且攜帶有頭資訊,這些Event由Agent外部的Source生成,當Source捕獲事件後會進行特定的格式化,然後Source會把事件推入(單個或多個)Channel中。可以把Channel看作是一個緩衝區,它將儲存事件直到Sink處理完該事件。Sink負責持久化日誌或者把事件推向另一個Source。以下是Flume的一些核心概念:
(1)Events:一個數據單元,帶有一個可選的訊息頭,可以是日誌記錄、avro 物件等。
(2)Agent:JVM中一個獨立的Flume程序,包含元件Source、Channel、Sink。
(3)Client:運行於一個獨立執行緒,用於生產資料並將其傳送給Agent。
(4)Source:用來消費傳遞到該元件的Event,從Client收集資料,傳遞給Channel。
(5)Channel:中轉Event的一個臨時儲存,儲存Source元件傳遞過來的Event,其實就是連線 Source 和 Sink ,有點像一個訊息佇列。
(6)Sink:從Channel收集資料,執行在一個獨立執行緒。
Flume以Agent為最小的獨立執行單位,一個Agent就是一個JVM。單Agent由Source、Sink和Channel三大元件構成,如下圖所示:
這裡寫圖片描述


值得注意的是,Flume提供了大量內建的Source、Channel和Sink型別。不同型別的Source、Channel和Sink可以自由組合。組合方式基於使用者設定的配置檔案,非常靈活。比如:Channel可以把事件暫存在記憶體裡,也可以持久化到本地硬碟上;Sink可以把日誌寫入HDFS、HBase、ES甚至是另外一個Source等等。Flume支援使用者建立多級流,也就是說多個Agent可以協同工作,如下圖所示:
這裡寫圖片描述
更多的瞭解,請檢視官網:http://flume.apache.org/FlumeUserGuide.html

3.系統環境

主機名稱 作業系統 Java版本 Fiume版本
hadoop centos7 Java1.8+ 1.7.0

**系統需求:**Flume需要Java 1.6及以上(推薦1.8),對Agent監控目錄的讀寫許可權。

4.下載及安裝

1.Flume

到Flume官網上http://flume.apache.org/download.html下載軟體安裝包,如圖:
這裡寫圖片描述
可以在Windows下下載完成,通過xftp上傳至hadoop根目錄下,也可以在圖片上箭頭指向的版本,點選“右鍵”,複製連結地址,在hadoop下通過wget安裝

下載、解壓

$ wget http://www.apache.org/dyn/closer.lua/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz
$ tar -xzf apache-flume-1.7.0-bin.tar.gz
$ mv apache-flume-1.7.0-bin flume

2.jdk1.8的安裝

$ sudo yum -y remove java*

2.安裝jdk

$ sudo yum -y install jdk-8u144-linux-x64.rpm

3.配置java環境變數(區域性)

$ vi .bashrc

新增如下內容

# Java Environment Variables
export JAVA_HOME=/usr/java/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin

通過如下命令使其生效

$ source .bashrc

測試:$ echo $JAVA_HOME 會顯示如下:

/usr/java/jdk1.8.0_144

至此Java環境變數配置成功

5.修改Flume配置檔案

進入到flume的conf下,建立一個flume.conf 檔案

$ cd /home/hadoop/flume/conf/
$ vi flume.conf

輸入以下內容

# 指定Agent的元件名稱
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# 指定Flume source(要監聽的路徑)
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /home/hadoop/log

# 指定Flume sink
a1.sinks.k1.type = logger

# 指定Flume channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# 繫結source和sink到channel上
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

6.啟動flume agent

$ cd flume
$ bin/flume-ng agent --conf conf --conf-file conf/flume.conf --name a1 -Dflume.root.logger=INFO,console
引數 作用 舉例
–conf 或 -c 指定配置資料夾,包含flume-env.sh和log4j的配置檔案 –conf conf
–conf-file 或 -f 配置檔案地址 –conf-file conf/flume.conf
–name 或 -n agent名稱 –name a1
-z zookeeper連線字串 -z zkhost:2181,zkhost1:2181
-p zookeeper中的儲存路徑字首 -p /flume

7.簡單的操作

寫入日誌內容
/home/hadoop/log 下建立一個flume.log 日誌檔案,寫入hello flume 作為測試內容

$ cd /home/hadoop/log
$ vi flume.log

接著就可以在前一個終端看到剛剛採集的內容了,如下:

2017-09-18 22:18:28,937 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:95)] Event: { headers:{} body: 68 65 6C 6C 6F 20 66 6C 75 6D 65 20 21 21       hello flume !! }

如圖:
這裡寫圖片描述
至此flume已經能夠正常執行。

————————-華麗的分割線——————————–