Spark Streaming-Kafka例項(Python與Java版本)

阿新 • • 發佈：2019-01-10

本文實現kafka與Spark Streaming之間的通訊，其中Kafka端producer實現使用Java，Spark Streaming端Consumer使用Python實現。

首先安裝kafka與spark streaming環境，kafka測試連通測試參考上文，本文的實驗環境都為本地單機版本。

Kafka

import org.apache.kafka.clients.producer.*;
import org.apache.kafka.common.serialization.StringSerializer;
import java.util.Properties;

public 
 class producer {
    private final static String TOPIC = "data-message";
    private final static String BOOTSTRAP_SERVER = "127.0.0.1:9092";


    public static Producer<String,String> createProducer() {
        Properties props = new Properties();
        props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,BOOTSTRAP_SERVER);
        props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
        props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());

        return 
 new KafkaProducer<>(props);
    }

    // 實現自定義partition
    public static int partition(long time){
        if(time%2 == 0)
            return 0;
        else
            return 1;
    }
    public static void runProducer() throws Exception{
        final Producer<String,String> producer = createProducer();
        long 
 time  = System.currentTimeMillis();
        long curTime = time;
        try{
            while(true){
                curTime = System.currentTimeMillis();
                if(curTime-time == 10000){
                    final ProducerRecord<String,String> record =
                            new ProducerRecord<>(TOPIC, partition(curTime) ,"JP_"+curTime,"AUX|989|bid|276|"+curTime);
                    RecordMetadata metadata = producer.send(record).get();
                    long elapsedTime = System.currentTimeMillis() - time;
                    System.out.printf("sent record(key=%s value=%s) " +
                            "meta(partition=%d, offset=%d) time=%d\n",
                    record.key(), record.value(), metadata.partition(),
                    metadata.offset(), elapsedTime);
                    curTime = time = System.currentTimeMillis();
                }
            }
        } finally {
            producer.flush();
            producer.close();
        }   
    }
    public static void main(String[] args) throws Exception{
            runProducer();
    }
}

Spark Streaming實現了Spark Steaming兩者通訊方式，createStream和createDirectStream

import os

from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
import json
import configparser

def startReceiver(config,topics,ssc):
    #connect kafka
    kafkaStreams = [KafkaUtils.createStream(ssc,config.get('oppo','zookeeper'),
                                       config.get('oppo','consumer'),topics) for _ in range(int(config.get('oppo','numStreams')))]
    uniStream = ssc.union(*kafkaStreams)

    stream = uniStream.map(lambda x: x[0])

    stream.pprint()

    ssc.start()
    ssc.awaitTermination()

def startDirect(config,topic,ssc):
    brokerList = config.get('oppo','brokerList')
    #connect kafka
    kafkaStreams = KafkaUtils.createDirectStream(ssc,[config.get('oppo','topic')],
                                                  {"metadata.broker.list":brokerList})
    stream = kafkaStreams.map(lambda x: x[1])
    stream.pprint()

    ssc.start()
    ssc.awaitTermination()

if __name__ == '__main__':
    config = configparser.SafeConfigParser()
    config.read("properties.conf")

    sc = SparkContext(appName=config.get('oppo', 'appName'))
    sc.setLogLevel(config.get('oppo', 'logLevel'))

    # create Streaming Context
    # deal with internal 10 seconds
    ssc = StreamingContext(sc, 10)

    topic = config.get('oppo', 'topic')
    topics = {topic: 0, topic: 1}

    #startReceiver(config,topics,ssc)
    startDirect(config,topic,ssc)

properties.conf配置檔案

[oppo]
appName = SparkStreamingKafka
logLevel = WARN
topic = data-message
partitions = 2
zookeeper=127.0.0.1:2181
numStreams = 2
consumer = spark-streaming
brokerList=127.0.0.1:9092

Spark Streaming-Kafka例項(Python與Java版本)

本文實現kafka與Spark Streaming之間的通訊，其中Kafka端producer實現使用Java，Spark Streaming端Consumer使用Python實現。首先安裝kafka與spark streaming環境，kafka測試連通測試參考上文，本文的實驗環

Protobuf二進位制檔案基於Http協議傳輸的應用例項 ☞ Python與Java之間無關語言的資料傳輸

在前兩篇中，博主介紹了Google Protocol Buffer【一種資料互動格式】在Python和Java中各自的應用例項，重點就是掌握和理解如何構造protobuf的協議檔案.proto：檔案中的資料組織結構是以messgae打頭的，message訊息體裡

kafka+spark streaming程式碼例項(pyspark+python)

一、系統準備1.啟動zookeeper：bin/zkServer.cmd start2.啟動kafka：bin/kafka-server-start.sh -daemon config/server.properties3.啟動spark：sbin/start-all.sh資

多層感知機（MLP）演算法原理及Spark MLlib呼叫例項（Scala/Java/Python）

多層感知機演算法簡介：多層感知機是基於反向人工神經網路（feedforwardartificial neural network）。多層感知機含有多層節點，每層節點與網路的下一層節點完全連線。輸入層的節點代表輸入資料，其他層的節點通過將輸入資料與層上節點

基於Python的Spark Streaming+Kafka程式設計實踐及調優總結

說明Spark Streaming的原理說明的文章很多，這裡不做介紹。本文主要介紹使用Kafka作為資料來源的程式設計模型,編碼實踐,以及一些優化說明演示環境Spark:1.6Kafka:kafka_2.11-0.9.0.1實現語言：Python程式設計模型目前Spark S

二十種特徵變換方法及Spark MLlib呼叫例項（Scala/Java/python）（一）

Tokenizer（分詞器）演算法介紹： Tokenization將文字劃分為獨立個體（通常為單詞）。下面的例子展示瞭如何把句子劃分為單詞。 RegexTokenizer基於正則表示式提供更多的劃分選項。預設情況下，引數“pattern”為

基於Python的Spark Streaming+Kafka程式設計實踐

說明 Spark Streaming的原理說明的文章很多，這裡不做介紹。本文主要介紹使用Kafka作為資料來源的程式設計模型,編碼實踐,以及一些優化說明演示環境 Spark:1.6 Kafka:kafka_2.11-0.9.0.1 實現語言：P

MLlib--多層感知機（MLP）演算法原理及Spark MLlib呼叫例項（Scala/Java/Python）

來源：http://blog.csdn.net/liulingyuan6/article/details/53432429 多層感知機演算法簡介：多層感知機是基於反向人工神經網路（feedforwardartificial neural net

三種特徵選擇方法及Spark MLlib呼叫例項（Scala/Java/python）

VectorSlicer 演算法介紹： VectorSlicer是一個轉換器輸入特徵向量，輸出原始特徵向量子集。VectorSlicer接收帶有特定索引的向量列，通過對這些索引的值進行篩選得到新的向量集。可接受如下兩種索引 1.整數索引，setIndice

隨機森林迴歸（Random Forest）演算法原理及Spark MLlib呼叫例項（Scala/Java/python）

隨機森林迴歸演算法介紹：隨機森林是決策樹的整合演算法。隨機森林包含多個決策樹來降低過擬合的風險。隨機森林同樣具有易解釋性、可處理類別特徵、易擴充套件到多分類問題、不需特徵縮放等性質。隨機森林分別訓練一系列的決策樹，所以訓練過程是並行的。因演算法中加入隨機

二十種特徵變換方法及Spark MLlib呼叫例項（Scala/Java/python）（二）

VectorIndexer 演算法介紹： VectorIndexer解決資料集中的類別特徵Vector。它可以自動識別哪些特徵是類別型的，並且將原始值轉換為類別指標。它的處理流程如下： 1.獲得一個向量型別的輸入以及maxCategories引數。 2.基於

spark----基於Python的Spark Streaming+Kafka程式設計實踐

來源：http://blog.csdn.net/eric_sunah/article/details/54096057?utm_source=tuicool&utm_medium=referral 說明 Spark Streaming的原理說明的文章很多，這裡不

梯度迭代樹（GBDT）演算法原理及Spark MLlib呼叫例項（Scala/Java/python）

梯度迭代樹演算法簡介：梯度提升樹是一種決策樹的整合演算法。它通過反覆迭代訓練決策樹來最小化損失函式。決策樹類似，梯度提升樹具有可處理類別特徵、易擴充套件到多分類問題、不需特徵縮放等性質。Spark.ml通過使用現有decision tree工具來實現。

spark版本與java版本報錯問題解決

本文參考自: 原文地址安裝完spark後執行出現這樣的錯誤： Exception in thread "main" java.lang.UnsupportedClassVersionError: org/apache/spark/network/util/Byte

javac與java版本不一致

bin 文章 target 變量 runner dsp load adr tar 項目測試時遇到該問題，因為loadRunner不支持jdk1.7，但運行java腳本時提示jdk版本是1.7，實際的JAVA_HOME設置為1.6。運行javac -version與java

下載基於大數據技術推薦系統實戰教程(Spark ML Spark Streaming Kafka Hadoop Mahout Flume Sqoop Redis)

大數據技術推薦系統推薦系統實戰地址:http://pan.baidu.com/s/1c2tOtwc 密碼:yn2r82課高清完整版，轉一播放碼。互聯網行業是大數據應用最前沿的陣地，目前主流的大數據技術，包括 hadoop，spark等，全部來自於一線互聯網公司。從應用角度講，大數據在互聯網領域主

編程語言對比分析：Python與Java和JavaScript（圖）

最大 python 服務 dev 破壞 fff 對比分析可能分析編程語言對比分析：Python與Java和JavaScript（圖）：憑什麽說“Python 太慢，Java 太笨拙，我討厭 JavaScript”？[圖]編程語言生而為何？我們人類從原始社會就是用語言表

Python與Java的就業前景分析

很難容易源碼時代發展廣泛行業選擇人員如果在IT行業中，Python和Java這兩大編程語言,很多人都喜歡拿來做比較,一個是後起之星，,潛力無限;一個是行業經典,成熟穩定。對於想從事IT技術的人員來說,很難抉擇,那麽,Python和Java到底哪一個就

Pentaho Data Integration (PDI/Kettle)與Java版本支援關係

摘自wiki： Since Kettle version 5 you need Java 7 (aka 1.7), download this version from Oracle. When the right version is not found on the pa

python中多執行緒中event的使用-----------------即一個靈活的方法標誌位,類似於java的等待喚醒機制（python與java不同的地方）

event是python中一個特有的標誌位方法，他一共有三種方法 1.event.wait()：如果標誌位設定了，它不做任何事，如果沒有設定，則將會鎖住，等待標誌位的設定 2.event.set()：設定標誌位 3.event.clear()：清除標誌位這一種機制很

Spark Streaming-Kafka例項(Python與Java版本)

相關推薦