Storm和Kafka的整合安裝和測試

阿新 • • 發佈：2019-01-03

1、先保證Storm叢集已經安裝

Storm叢集的安裝可以參考文章：Storm叢集的安裝，Kafka的安裝和測試也可以參考apache kafka官網上的Quick Start

2、安裝Kafka叢集：

2.1 下載Kafka包，我們這裡選擇kafka_2.9.2-0.8.1.tgz版本進行安裝，解壓到安裝目錄：tar -xzf kafka_2.9.2-0.8.1.tgz

2.2 建立一個軟連結kafka：ln -s kafka_2.9.2-0.8.1 kafka，方便以後升級

2.3 修改~/.profile，匯出KAFKA_HOME和PATH

export KAFKA_HOME=/home/storm/software/kafka

export PATH=.:$KAFKA_HOME/bin:$PATH

2.4 執行：source ~/.profile，使得修改對於當前會話生效

2.5 修改kafka配置檔案kafka/config/server.properties：

log.dirs=/home/storm/software/kafka/kafka-logs

zookeeper.connect=linux-21:2181,linux-7:2181

2.6 啟動kafka：nohup kafka-server-start.sh ./config/server.properties &

檢視日誌cat nohup.out，有可能會報如下錯誤：

Unrecognized VM option '+UseCompressedOops'

Could not create the Java virtual machine.

這是由於機器上安裝的JDK版本不支援VM選項導致的，Kafka0.8.1版本需要的JDK是JDK 1.7 u51。可以通過如下方法暫時規避，但是是否還有其他相容性問題，還不確定：修改kafka/bin目錄下的KAFKA_JVM_PERFORMANCE_OPTS取值，把-XX:+UseCompressedOops刪除

2.7 建立topic：

kafka-topics.sh --create --zookeeper linux-7:2181 --partitions 2 --replication-factor 1 --topic test

其中--zookeeper指定一個zookeeper的位置，

--partition指定partition的個數，建立完後，我們能在log.dirs指定的目錄下看到兩個以主題名稱建立的資料夾：test-0,test-1，裡面有一個索引檔案.index，一個數據檔案.log

--relication-factor指定副本的個數(這個值不能大於broker的個數)

--topic指定主題的名字

2.8 檢視topic：

kafka-topics.sh --list --zookeeper linux-21:2181

2.9 produce訊息：

kafka-console-producer.sh --broker-list localhost:9092 --topic test

--broker-list指定broker的列表

2.10 consume訊息：

kafka-console-consumer.sh --zookeeper localhost:2181 --topic test --from-beginning

--zookeeper指定zookeeper的位置

我們從produce命令和consume命令可以看出，produce是直接和broker通訊的；而consume不需要和broker直接通訊，它是從zookeeper通訊而獲得broker的資訊的。

2.11 將整個kafka目錄拷貝到其他kafka叢集機器上，注意~/.profile的修改和生效，以及修改server.properties檔案中的broker.id屬性，使得所有叢集的機器取值不同。

2,12 將其他機器上的kafka啟動，並測試producer和consumer指令。

3、編寫kafka Producer JAVA程式

這裡有個例子，這裡有具體API的文件

3.1 先構造一個ProducerConfig物件，用來配置kafka broker的資訊

3.2 構造Producer，呼叫send命令傳送KeyedMessage訊息。

3.3 這裡要注意兩個問題：

程式碼中的API已經過時，已經有新的API替換
如果你寫的Producer程式是在本機(非kafka伺服器) 上執行，那麼一定要配置好server.properties配置檔案的advertised.host.name引數，配置檔案中關於這個引數有如下說明：
# Hostname the broker will advertise to producers and consumers. If not set, it uses the

# value for "host.name" if configured. Otherwise, it will use the value returned from
# java.net.InetAddress.getCanonicalHostName().
意思就是說廣播給producer和consumer用的。如果沒有設定，就去讀host.name中的設定，如果也沒設定，就通過getCanonicalHostName()來取。所以如果你的本機沒有配置hosts檔案的話，就無法解析發過來的broker主機名。如果不想修改本機的hosts檔案，直接把這個引數配置成broker的IP地址就可以了。

程式碼如下：
package com.mykafka.producer;

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.util.Properties;

import kafka.javaapi.producer.Producer;
import kafka.producer.KeyedMessage;
import kafka.producer.ProducerConfig;

public class MyLogProducer {

	public static void main(String[] args) throws IOException {
		Properties props = new Properties();
		props.put("metadata.broker.list", "10.118.15.7:9092");
		
        props.put("serializer.class", "kafka.serializer.StringEncoder");
        //props.put("partitioner.class", "example.producer.SimplePartitioner");
        props.put("request.required.acks", "1");
        props.put("producer.type", "async");
        
        props.put("compression.codec", "1");
        
        //props.put("zookeeper.connect", "linux-7:2181,linux-21:2181");
        
		
        ProducerConfig config = new ProducerConfig(props);
        Producer<String, String> producer = new Producer<String, String>(config);
        
        BufferedReader reader = new BufferedReader(new FileReader("c:/access.log"), 2048);
        String aline;
        while((aline = reader.readLine()) != null){
        	System.out.println(aline);
        	KeyedMessage<String, String> data = new KeyedMessage<String, String>("logs", aline);
        	producer.send(data);
        }
        
        producer.close();
        reader.close();
        System.out.println("send over....");
	}

}
可以在broker端開一個consumer來檢查是否已經收到這段程式發過來的資料。

4、Storm consume Kafka

Storm從Kafka讀取資料，我們可以利用一個開源的jar包來實現。

主要分兩步來使用：

第一步，構造一個SpoutConfig物件，它需要zookeeper的資訊，以及topic資訊等。

第二步，用SpoutConfig來構造KafkaSpout物件

import com.storm.stormkafka08.bolt.LogParserBolt;

import backtype.storm.Config;
import backtype.storm.LocalCluster;
import backtype.storm.spout.SchemeAsMultiScheme;
import backtype.storm.topology.TopologyBuilder;
import storm.kafka.KafkaSpout;
import storm.kafka.SpoutConfig;
import storm.kafka.StringScheme;
import storm.kafka.ZkHosts;

public class LogTopology {

    public static void main(String[] args) {
        // zookeeper hosts for the Kafka cluster 
        ZkHosts zkHosts = new ZkHosts("10.118.15.21:2181"); 
        // Create the KafkaSpout configuration 
        // Second argument is the topic name 
        // Third argument is the ZooKeeper root for Kafka 
        // Fourth argument is consumer group id 
        SpoutConfig kafkaConfig = new SpoutConfig(zkHosts,  "logs", "", "id7"); 
        // Specify that the kafka messages are String 
        kafkaConfig.scheme = new SchemeAsMultiScheme(new  StringScheme()); 
        // We want to consume all the first messages in 
        // the topic every time we run the topology to 
        // help in debugging. In production, this 
        // property should be false 
        kafkaConfig.forceFromStart = true; 
        // Now we create the topology 
        TopologyBuilder builder = new TopologyBuilder(); 
        // set the kafka spout class 
        builder.setSpout("KafkaSpout", new KafkaSpout(kafkaConfig), 1); 
        // configure the bolts 
        builder.setBolt("ParseLog", new LogParserBolt(), 3).shuffleGrouping("KafkaSpout"); 
        
        // create an instance of LocalCluster class 
        // for executing topology in local mode. 
        LocalCluster cluster = new LocalCluster(); 
        Config conf = new Config(); 
        // Submit topology for execution 
        cluster.submitTopology("KafkaToplogy", conf, builder.createTopology()); 
        try { 
          // Wait for some time before exiting 
          System.out.println("Waiting to consume from kafka"); 
          Thread.sleep(10000); 
        } catch (Exception exception) { 
          System.out.println("Thread interrupted exception : " 
          + exception); 
        } 
        // kill the KafkaTopology 
        cluster.killTopology("KafkaToplogy"); 
        // shut down the storm test cluster 
        cluster.shutdown(); 

    }

}

RobotFramework和Eclipse整合-安裝和使用說明

1、安裝python27的版本。 Python2與python3不衝突，可以都安裝，指定不同的目錄就好。配置python2的環境變數，在python3的環境變數之前。將所有的安裝操作完成之後，去掉python2的環境變數設定。安裝注意事項，請看2之後的說

Storm和Kafka的整合安裝和測試

1、先保證Storm叢集已經安裝 Storm叢集的安裝可以參考文章：Storm叢集的安裝，Kafka的安裝和測試也可以參考apache kafka官網上的Quick Start 2、安裝Kafka叢集： 2.1 下載Kafka包，我們這裡選擇kafka_2.9.2

Kafka 學習——一、Kafka 的安裝和測試

一、Kafka 安裝 1.1 Zookeeper 的安裝進入需要安裝的目錄 (此處以 /usr/software 為準) tar -zxvf /mnt/hgfs/share-file/zookeeper-3.4.13 sudo vim /etc/profil

Storm系列(六)storm和kafka整合

使用kafka-client jar進行Storm Apache Kafka整合這包括新的Apache Kafka消費者API。相容性 Apache Kafka版本0.10起引入jar包 <dependency> <groupId>org.apache.st

storm和kafka整合

storm和kafka整合依賴 <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-kafka-client</artifactId> &

Kafka的安裝和設置

發布 scp keep 三種模式 conf 多個 file 解壓 path Kafka是一種分布式發布訂閱消息系統。 Kafka有三種模式：（1）單節點單Broker，在一臺機器上運行一個Kafka實例；（2）單節點多Broker，在一臺機器上運行多個Kafka實

【轉】Spark Streaming和Kafka整合開發指南

thread ada 關系方法拷貝理解 1.2 reduce arr 基於Receivers的方法這個方法使用了Receivers來接收數據。Receivers的實現使用到Kafka高層次的消費者API。對於所有的Receivers，接收到的數據將會保存在Spark

CentOS 7環境下Kafka的安裝和基本使用

uil nor mod ner comment github jdk下載 1.0 esc CentOS 7環境下Kafka的安裝和基本使用基礎環境 Windows 10 X64 VMware-workstation-full-12.0.0-2985596

springboot和kafka整合過程中出現的一個錯誤

java.lang.IllegalStateException: Error processing condition on org.springframework.boot.autoconfigure.kafka.KafkaAutoConfiguration.kafkaProducerListener

storm概述、叢集安裝和簡單的命令列操作

http://storm.apache.org Apache Storm是一個免費的開源分散式實時計算系統。Storm可以輕鬆可靠地處理無限資料流，實現Hadoop對批處理所做的實時處理。Storm非常簡單，可以與任何程式語言一起使用，並且使用起來很有趣! Storm有許多用例:實時分析，

Kafka的安裝和使用

選擇Binary downloads: 解壓進入目錄： admindeMacBook-Pro:Tools yyc$ cd kafka_2.11-1.1.0/ admindeMacBook-Pro:kafka_2.11-1.1.0 yyc$ ls LICENSE bi

HBase2實戰：HBase Flink和Kafka整合

1.概述 Apache官方釋出HBase2已經有一段時間了，HBase2中包含了許多個Features，從官方JIRA來看，大約有4500+個ISSUES（檢視地址），從版本上來看是一個非常大的版本了。本篇部落格將為大家介紹HBase2的新特性，以及如何在實戰中與Flink、Kafka等元件進行整合。 2

sparkstreaming和kafka整合的兩種方式

-1,基於接收者Receiver-based的方法運算元：KafkaUtils.createStream 方法：PUSH，從topic中去推送資料，將資料推送過來 API：呼叫的Kafka高階API 效果：SparkStreaming中的Receivers，恰好Kafka有釋出/訂閱，然而：此種方式企業不常

Flink和Kafka整合Demo以及DeserializationSchema.class找不到的解決方法

這裡用的是用官網提供的maven命令構建的flink1.4.0的flink-quick-start工程，具體構建工程命令如下 mvn archetype:generate -DarchetypeGroupId=org.apache.flink -Darchet

sparkstreaming和kafka整合的兩種方式（最全）

-1,基於接收者的方法運算元：KafkaUtils.createStream 方法：PUSH，從topic中去推送資料，將資料推送過來 API：呼叫的Kafka高階API 效果：SparkStreaming中的Receivers，恰好Kafka有釋出/

pytorch和torchnet的安裝與測試（Ubuntu16.04+cuda9.0）

本人的ubutu版本為16.04，cuda9.0。一.啟動ubuntu系統出現黑畫面 1.開機，進入grub畫面。選擇第一項”ubuntu”，按”e”，進入編輯模式。將”quite splash”, 修改為”quite splash nomodeset”。 2.按 ”F10

Spark Streaming 和kafka 整合指導（kafka 0.8.2.1 或以上版本）

本節介紹一下如何配置Spark Streaming 來接收kafka的資料。有兩個方法： 1、老的方法 -使用Receivers 和kafka的高階API 2、新的方法（ Spark 1.3 開始引入）-不適用Receivers。這兩個方式擁有不同的程式設計模型，效能特徵

kafka的安裝和除錯

1. 簡介 kafka （官網地址：http://kafka.apache.org）是一款分散式訊息釋出和訂閱的系統，具有高效能和高吞吐率。 i. 訊息的釋出（publish）稱作producer，訊息的訂閱（subscribe）稱作consumer，中間的儲存陣列稱作br

rabbitmq 和 kafka 簡單的效能測試

測試環境：ubuntu 15.10 64位 cpu:inter core i7-4790 3.60GHZ * 8 記憶體:16GB 硬碟:ssd 120GB 軟體環境：rabbmitmq 3.6.0 kafka0.8.1 (均為單機本機執行) PS: 測

kafka單機安裝和啟動

local 好的 sta config 後臺 rep 解壓 .sh sum 1.下載並解壓到/usr/local/src目錄下 2.運行kafka需要使用Zookeeper，先啟動Zookeeper，如果沒有Zookeeper，可以使用kafka自帶打包和配置好的Zook

Storm和Kafka的整合安裝和測試

1、先保證Storm叢集已經安裝

2、安裝Kafka叢集：

3、編寫kafka Producer JAVA程式

4、Storm consume Kafka

相關推薦