<Spark Streaming><Flume><Integration>

阿新 • • 發佈：2017-05-09

uri min 取數 nts general ora span int from

Overview

Flume：一個分布式的，可靠的，可用的服務，用於有效地收集、聚合、移動大規模日誌數據
我們搭建一個flume + Spark Streaming的平臺來從Flume獲取數據，並處理它。
有兩種方法實現：使用flume-style的push-based方法，或者使用自定義的sink來實現pull-based方法。

Approach 1: Flume-style Push-based Approach

flume被設計用來在Flume agents之間推信息，在這種方式下，Spark Streaming安裝一個receiver that acts like an Avro agent for Flume, to which Flume can push the data.

General Requirement

當你啟動flume + spark streaming應用時，該機器上必須運行一個Spark workers。
flume可以向該機器的某一個port push數據。
基於這種push機制，streaming應用必須有一個receiver scheduled and listening on the chosen port.

Configuring Flume

配置flume以向Avro sink發送數據

agent.sinks = avroSink
agent.sinks.avroSink.type = avro
agent.sinks.avroSink.channel = memoryChannel
agent.sinks.avroSink.hostname =  
<chosen machine‘s hostname>
agent.sinks.avroSink.port = <chosen port on the machine>

View Code

Configuring Spark Streaming Application

Linking: 在maven項目中配置依賴

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming-flume-sink_2.10</ 
artifactId>
    <version>2.1.0</version>
</dependency>

　　2. Programming：import FlumeUtils, 創建input DStream

 import org.apache.spark.streaming.flume._

 val flumeStream = FlumeUtils.createStream(streamingContext, [chosen machine‘s hostname], [chosen port])

註意：應該與cluster中的resourceManager使用同一個hostname，這樣的話資源分配可以匹配names，並在正確的機器上launch receiver
一個簡單的Spark Streaming統計Flume event個數的demo代碼：

object FlumeEventCount {
  def main(args: Array[String]) {
    if (args.length < 2) {
      System.err.println(
        "Usage: FlumeEventCount <host> <port>")
      System.exit(1)
    }

    StreamingExamples.setStreamingLogLevels()

    val Array(host, IntParam(port)) = args

    val batchInterval = Milliseconds(2000)

    // Create the context and set the batch size
    val sparkConf = new SparkConf().setAppName("FlumeEventCount")
    val ssc = new StreamingContext(sparkConf, batchInterval)

    // Create a flume stream
    val stream = FlumeUtils.createStream(ssc, host, port, StorageLevel.MEMORY_ONLY_SER_2)

    // Print out the count of events received from this server in each batch
    stream.count().map(cnt => "Received " + cnt + " flume events." ).print()

    ssc.start()
    ssc.awaitTermination()
  }
}

View Code

uri min 取數 nts general ora span int from Overview Flume：一個分布式的，可靠的，可用的服務，用於有效地收集、聚合、移動大規模日誌數據我們搭建一個flume + Spark Streaming的平臺來從Flume獲取數

<Spark Streaming><本地調試>

pri lis pac flume object st2 soc port 打包寫在前面因為本地電腦沒裝flume，nginx各種。所以之前寫Streaming程序的時候，都是打包了放到集群上跑。就算我在程序代碼裏不停地logger，調試起來也hin不方便。於是本地

<spark> ~/spark/conf/spark-default.conf 配置文件

shuf 參考 ons ast .sh spark集群搭建 driver conf 配置文件因為看到我參考的Hadoop/spark集群搭建的文檔中的都沒有對 /spark-default.conf 的配置合理地對 /spark-default.conf 進行配置，能

<spark> error：啟動spark後查看進程，進程中master和worker進程沖突

告訴若有 master 沖突存在查看進程 spark 但是文件啟動hadoop再啟動spark後jps，發現master進程和worker進程同時存在，調試了半天配置文件。測試發現，當我關閉hadoop後 worker進程還是存在，但是，當我再關閉spar

<Spark快速大數據分析>讀書筆記

磁盤外部闖關計算 apache 忽略分布 ado format <Spark快速大數據分析>主要使用java, scala和python進行講解，因博主暫未對java和scala展開了解，所以後續總結只通過python進行展示。 Part 1 Spark

<Spark快速大數據分析>讀書筆記(二)

body 數據單詞 spa line lin pairs clas art PART 3 Pair RDD 　　Spark為包含鍵值對類型的RDD提供了專有操作，這類RDD叫做Pair RDD(意為“對RDD”) 　　Spark中Pair RDD的創建主要有兩種方式，一種

從零開始學android<Bitmap圖形組件.四十七.>

alt getheight drawtext layout pla cin mas 簡單制圖 android.graphics.Bitmap（位圖）是Android手機中專門提供的用於操作圖片資源的操作類，使用此類能夠直接從資源文件之中進行圖片資源的讀取。而且對這些圖

Vim鍵入<ESC>的巧妙方法<alt-;>

如何打出哈哈兩個需要麻煩多余方便映射在Vim中esc是一個常用的按鍵，卻需要我們如此大幅度的移動才能碰觸到它，那麽我們如何更方便的使用它呢？網上有不少方法，alt-[和df鍵映射是我曾用過的兩種方法，現在先講一下它們的問題， df鍵映射問題在於等待！每次

空格< >、水平橫線<hr/>、地址<address>和<code>標簽

add amp 網頁語言 ddr 橫線子郵件信息標簽空格：   水平橫線： </hr> 地址：一般網頁中會有一些網站的聯系地址信息需要在網頁中展示出來，這些聯系地址信息如公司的地址就可以<address>標簽。也可以定義

odoo 之報date<form string=''product lc''> 錯誤

sage clas str eight 解決方法 string page follow nbsp 原因是： </page> </notebook> </form> <div class="oe_

<div>標簽仿<textarea>。contentEditable=‘true’，賦予非表單標簽內容可以編輯

相同元素 true 狀態 innertext rom 其他 hold 自定義需求：web頁面需要一個文本輸入框。1、該文本輸入框默認狀態下有個仿‘placeholder’的默認文本提示信息，2、文本框輸入狀態下其高度會隨文本內容自動撐開。方案

MySQL<數據庫和表的基本操作>

字段值提高主鍵約束 dex pri 表示 span 整數 describe 數據庫和表的基本操作數據庫基礎知識創建數據庫　　就是在數據庫系統中劃分一塊存儲數據的空間　　CREATE DATABASE itcast; 查看數據庫　　SHOW CREATE DAT

<<讓你自己的APP成為系統應用>>所遇到的問題及解決方法

app local .so led lib64 不能問題 1.7 error 1、adb connect 10.100.1.772、adb -s 10.100.1.77 shell remount3、讓你自己的APP成為系統應用 adb push xxx.apk sys

關於<meta NAME="keywords" CONTENT="">

等等 itl 英文逗號 generator 別人網站 htm 之間通過昨天終於以實習身份入職一家小創業公司，今天讓我多看看別人的網頁怎麽寫的，發現了一個以前都沒關註過的東西。 <meta name="keywords" content="XX_XX_XXX"/

HTML的<br/>標簽和<hr/>標簽

html<!DOCTYPE html><html><head><meta charset="utf-8"><title><br/>標簽和<hr/>標簽</title></head>&

<h2>1. mongodb介紹</h2>

服務 dialog ont isp 取消 -m href desc maxlength 1. mongodb介紹 2. ppt下載地址 http://download.csdn.net

利用java反射機制實現List<Map<String, Object>>轉化為List<JavaBean>

tis one row 註解網上 span mybatis star mod 最近在用mybatis做項目，遇到將date格式化顯示到easyui的問題，需要將List<Map<String, Object>>轉化為List<JavaBean

List<Object>轉換成Map<String,Object>形式

主鍵獲得 javabean exception sta put for ogg ash 上一篇講到了將List<Map<String,Object>> 轉換為 List<javaBean>，這次反過來： /** * 用於把L

rel 屬性<small>H5保留屬性</small>

image img tree mage logs 文件 -m 分享 cnblogs 源文件 rel 屬性<small>H5保留屬性</small>

Oracle啟動中，spfile.ora、init<SID>.ora、spfile<SID>.ora 這三個文件正確的先後順序是什麽？

nbsp tar acl 命令 spfile 缺省 start spf 解答 Oracle啟動中，spfile.ora、init<SID>.ora、spfile<SID>.ora 這三個文件正確的先後順序是什麽？解答：啟動數據庫，使用start