大數據入門第二十四天——SparkStreaming（2）與flume、kafka整合

阿新 • • 發佈：2018-04-16

RM ESS 依賴 mep sock flume-ng bject 整合 master

前一篇中數據源采用的是從一個socket中拿數據，有點屬於“旁門左道”，正經的是從kafka等消息隊列中拿數據！

主要支持的source，由官網得知如下：

技術分享圖片

　　獲取數據的形式包括推送push和拉取pull

一、spark streaming整合flume

　　1.push的方式

　　　　更推薦的是pull的拉取方式

　　　　引入依賴：

     <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId 
>spark-streaming-flume_2.10</artifactId>
            <version>${spark.version}</version>
        </dependency>

　　　　編寫代碼：

package com.streaming

import org.apache.spark.SparkConf
import org.apache.spark.streaming.flume.FlumeUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}

 
/**
  * Created by ZX on 2015/6/22.
  */
object FlumePushWordCount {

  def main(args: Array[String]) {
    val host = args(0)
    val port = args(1).toInt
    val conf = new SparkConf().setAppName("FlumeWordCount")//.setMaster("local[2]")
    // 使用此構造器將可以省略sc，由構造器構建
    val ssc = new StreamingContext(conf, Seconds(5))
     
// 推送方式: flume向spark發送數據（註意這裏的host和Port是streaming的地址和端口，讓別人發送到這個地址）
    val flumeStream = FlumeUtils.createStream(ssc, host, port)
    // flume中的數據通過event.getBody()才能拿到真正的內容
    val words = flumeStream.flatMap(x => new String(x.event.getBody().array()).split(" ")).map((_, 1))

    val results = words.reduceByKey(_ + _)
    results.print()
    ssc.start()
    ssc.awaitTermination()
  }
}

　　　　flume-push.conf——flume端配置文件：

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# source
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /export/data/flume
a1.sources.r1.fileHeader = true

# Describe the sink
a1.sinks.k1.type = avro
#這是接收方
a1.sinks.k1.hostname = 192.168.31.172
a1.sinks.k1.port = 8888

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

flume-push.conf

　　2.pull的方式

　　　　屬於推薦的方式，通過streaming來主動拉取flume產生的數據

　　　　編寫代碼：（依賴同上）

package com.streaming

import java.net.InetSocketAddress

import org.apache.spark.SparkConf
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.flume.FlumeUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}

object FlumePollWordCount {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("FlumePollWordCount").setMaster("local[2]")
    val ssc = new StreamingContext(conf, Seconds(5))
    //從flume中拉取數據(flume的地址)，通過Seq序列，裏面可以new多個地址，從多個flume地址拉取
    val address = Seq(new InetSocketAddress("172.16.0.11", 8888))
    val flumeStream = FlumeUtils.createPollingStream(ssc, address, StorageLevel.MEMORY_AND_DISK)
    val words = flumeStream.flatMap(x => new String(x.event.getBody().array()).split(" ")).map((_,1))
    val results = words.reduceByKey(_+_)
    results.print()
    ssc.start()
    ssc.awaitTermination()
  }
}

　　　　　　配置flume

　　通過拉取的方式需要flume的lib目錄中有相關的JAR（要通過spark程序來調flume拉取），通過官網可以得知具體的JAR信息：

　　技術分享圖片

　　　　配置flume：

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# source
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /export/data/flume
a1.sources.r1.fileHeader = true

# Describe the sink（配置的是flume的地址，等待拉取）
a1.sinks.k1.type = org.apache.spark.streaming.flume.sink.SparkSink
a1.sinks.k1.hostname = mini1
a1.sinks.k1.port = 8888

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

flume-poll.conf

　　　　啟動flume，然後啟動IDEA中的spark streaming：

bin/flume-ng agent -c conf -f conf/netcat-logger.conf -n a1  -Dflume.root.logger=INFO,console
// -D後參數可選

大數據入門第二十四天——SparkStreaming（2）與flume、kafka整合

RM ESS 依賴 mep sock flume-ng bject 整合 master 前一篇中數據源采用的是從一個socket中拿數據，有點屬於“旁門左道”，正經的是從kafka等消息隊列中拿數據！主要支持的source，由官網得知如下：

大數據入門第二十二天——spark（三）自定義分區、排序與查找

get buffer arr clas ron arm scala mut all 一、自定義分區　　1.概述　　　　默認的是Hash的分區策略，這點和Hadoop是類似的，具體的分區介紹，參見：https://blog.csdn.net/high2011/arti

大數據入門第二十天——scala入門（二）scala基礎

alt turn class 推斷 inf 循環轉換使用 mda 一、基礎語法　　1.變量類型　　　　// 上表中列出的數據類型都是對象，也就是說scala沒有java中的原生類型。在scala是可以對數字等基礎類型調用方法的。　　2.變量聲明&mdas

半閒居士視覺SLAM十四講筆記（2）初識 SLAM- part 2 linux CMake、Kdevelop

該講詳細資料下載連結【Baidu Yun】【Video】【Code】若您覺得本博文對您有幫助，請支援高博的新書《視覺SLAM十四講》，【點選購買】若您覺得本博文對您有幫助，請支援高

大數據入門第十七天——storm上遊數據源之kafka詳解（一）入門

不同這也接受 blog 存儲發送 records ant post 一、概述　　1.kafka是什麽　　　　根據標題可以有個概念：kafka是storm的上遊數據源之一，也是一對經典的組合，就像郭德綱和於謙　　　　根據官網：http://kafka.apa

python第二十四天-----作業終於完成啦

critical pan tle div bug 關聯記錄創建 pla 1 #！usr/bin/env python 2 #-*-coding:utf-8-*- 3 # Author calmyan 4 #日誌記錄相關函數 5 import os

第二十四天框架之痛-Spring MVC(四）

cte and inf 業務 net dtd oct tar nco 6月3日，晴。“綠樹濃陰夏日長。樓臺倒影入池塘。水晶簾動微風起，滿架薔薇一院香”。以用戶註冊過程為例。我們可能會選擇繼承AbstractContro

大數據入門第十五天——HBase整合：雲筆記項目

表設計 ase 設計 str HR .html blog font ont 一、功能簡述　　1.筆記本管理（增刪改）　　2.筆記管理　　3.共享筆記查詢功能　　4.回收站　　效果預覽：　　二、庫表設計　　　　1.設計理念　　　　　　　　將

第二十四天

ase must 睡覺何事讀書今天進行狀態宿舍 2018-07-22 今天就只能寫昨天的內容了，昨晚早上依舊還是我來到圖書館進行讀書你在宿舍裏面下午，我也待在宿舍看了一個下午的電影中午，睡到了三點最近的狀態都是如此，把時間浪費在睡覺上面你本可以做你

第二十四天 PYTHON學習

創建奧巴馬方式調用函數重要遺傳劃分存在結構【今日學習】一.初識繼承 1、什麽是繼承繼承是一種創建新類的方式，新建的類可以繼承一個或多個父類（python支持多繼承），父類又可稱為基類或超類，新建的類稱為派生類或子類。子類會“”遺傳”父類的屬性，從而解

python 學習第二十四天（同步物件、資訊量、queue庫）

同步物件 import threading,time class Boss(threading.Thread): def run(self): print("BOSS：今晚大家都要加班到22:00。") print(event.i

python 學習第二十四天（同步鎖和遞迴鎖）

同步鎖給一段程式碼加了同步鎖之後，在這段程式碼執行時只能有一個執行緒執行。 import time import threading def addNum(): global num #在每個執行緒中都獲取這個全域性變數 #num-=1

python學習第二十四天

1.模組模組是我們py檔案執行後的名稱空間優點： 1. 可以把程式碼進行分類 2. 可以實現程式碼的重用模組匯入 1. 判斷sys.modules中是否已經匯入過該模組 2. 開闢一個記憶體空間 3. 在這個記憶體中

孤荷凌寒自學python第二十四天python類中隱藏的私有方法探祕

孤荷凌寒自學python第二十四天python類中隱藏的私有方法探祕（完整學習過程螢幕記錄視訊地址在文末，手寫筆記在文末）今天發現了python的類中隱藏著一些特殊的私有方法。這些私有方法不管我們定義類時是否在類的內部程式碼塊中定義過它們，這些私有方法都是存在的。比如已經知道的 _

Java進階學習第二十四天（Spring框架：事務管理、Spring與Hibernate整合）

一、事務控制 1、引入使用者訪問 > Action > Service > Dao 如何保證：在service中呼叫2次dao，其中一個dao執行失敗，整個操作要回滾 2、事務控制概述 ① 程式設計式事務控制：自己手動控制事務 Jdbc程式

菜鳥學python第二十四天(面向物件三大特性之多型)

面向物件三大特性之多型什麼是多型不同物件響應同一種方法的表現出不同的行為,產生不同的結果用基類建立一套統一的規則，強制子類去遵循（使用抽象類實現），這樣便可以在不用考慮物件具體型別的前提下而直接使用物件下的方法為什麼要有多型增加了程式的靈活性以不變應萬變,不論

Qt第二十四天

繪製動態曲線 #ifndef MAINWINDOW_H #define MAINWINDOW_H #include <QMainWindow> #include <QTimer> #include <QTime> #include <qwt_

敏捷結果30天之第二十四天：清華人都如此努力，那我們呢？

看看清華人是如何學習與生活，再看看自己是如何度過一天的，本來聰明的人就很厲害，而既聰明又努力的人簡直無敵了，還在墮落和迷茫的同學，趕快醒醒吧！一、永遠不要說你已經盡力了　　我在高中時體育特別差，跑 1000 米都很要命，從來都是不及格。到了清華之後，第一節體育課，老師告訴我們每年要測 3

java學習之路——第二十四天

IO流類的分類位元組流輸入流 &nbs

JAVA 攻城獅第二十四天

今天是第二十四天昨天晚上宿舍停電熱的睡不著所以早上7點多才起來然後把宿舍整理了之後就去實驗室寫這周的圖論題目然後哈哈因為正式開始寫是明天開始寫然後我就佔了四個綠燈然後準備明天早上起早一點繼續寫爭取亮一排綠燈。然後今天看了java的佈局的

大數據入門第二十四天——SparkStreaming（2）與flume、kafka整合

一、spark streaming整合flume

相關推薦