SparkStreaming（12）：高階資料來源kafka Receiver方式（生產）

阿新 • • 發佈：2018-11-08

1.準備環境

（1）啟動zk

    bin/zkServer.sh start

（2）啟動kafka

    bin/kafka-server-start.sh -daemon config/server.properties

（3）建立topic

bin/kafka-topics.sh --create --topic kafka_streaming_topic --zookeeper bigdata.ibeifeng.com:2181/kafka08 --partitions 1 --replication-factor 1

檢視

bin/kafka-topics.sh --list --zookeeper bigdata.ibeifeng.com:2181/kafka08

（4）測試kafka可以正常接收產生的訊息，並且消費

生產者

bin/kafka-console-producer.sh --broker-list bigdata.ibeifeng.com:9092 --topic kafka_streaming_topic

消費：

bin/kafka-console-consumer.sh --topic kafka_streaming_topic --zookeeper bigdata.ibeifeng.com:2181/kafka08

（經測試，成功！）

2.開發程式碼

（1）pom依賴

【參考：http://spark.apache.org/docs/2.1.0/streaming-kafka-0-8-integration.html】

    <dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming-kafka-0-8_2.11</artifactId>
    <version>2.1.0</version>
    </dependency>

（2）程式碼

package Spark

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.ReceiverInputDStream
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}


/**
  */
object KafkaReceiverWordCount_product {
  def main(args: Array[String]): Unit = {
    if(args.length!=4){
      System.err.println("Usage: KafkaReceiverWordCount <zkQuorum><group><topics><numThreads>")
    }

    val Array(zkQuorum,group,topics,numThreads)=args
    //因為這個是生產環境，所以註釋
    val sparkConf=new SparkConf()

    val ssc=new StreamingContext(sparkConf,Seconds(5))

    val topicMap=topics.split(",").map((_,numThreads.toInt)).toMap
    //TODO: Spark streaming如何對接kafka
    //參考原始碼createStream
    val messages: ReceiverInputDStream[(String, String)] =KafkaUtils.createStream(ssc,zkQuorum,group,topicMap)
    //取第2個
    messages.map(_._2).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).print()

    ssc.start()
    ssc.awaitTermination()
  }
}

3.測試

（1）jar包放入

/opt/datas/lib/scalaProjectMaven.jar

（2）開啟hdfs

（3）提交spark任務

bin/spark-submit \
--class Spark.KafkaReceiverWordCount_product \
--master local[2] \
--name KafkaReceiverWordCount_product \
--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.0 \
/opt/datas/lib/scalaProjectMaven.jar  bigdata.ibeifeng.com:2181/kafka08 test kafka_streaming_topic 1

（經測試成功！）

SparkStreaming（12）：高階資料來源kafka Receiver方式（生產）

1.準備環境（1）啟動zk bin/zkServer.sh start （2）啟動kafka bin/kafka-server-start.sh -daemon config/server.pr

SparkStreaming（13）：高階資料來源kafka Direct方式（生產）

【Direct方式，直接從kafka的broker讀取資料，而Receiver方式，從zk獲得偏移量資訊，效能要差一些！】 1.測試環境（1）啟動zk bin/zkServer.sh start （2) 啟動kafka bin/kafka-server-start.sh -da

SparkStreaming（11）：高階資料來源flume-pull方式（生產）

1.環境（1）生產環境 flume1.6.0 spark2.1.0 （2）下載對應依賴備註：一定要將依賴都放入flume的Flume’s classpath內，否則flume執行有問題。（遇到過坑~~~） (i) Custom sink JAR: groupId =

SparkStreaming（10）：高階資料來源flume-push方式（生產）

【參考：http://spark.apache.org/docs/2.1.0/streaming-flume-integration.html】 1.環境 spark2.1.0 flume1.6.0 2.flume的配置檔案flume_push_streaming.

Python函數語言程式設計（一）：高階函式

首先有一個高階函式的知識。一個函式可以接收另一個函式作為引數，這種函式就稱之為高階函式。 def add(x, y, f): return f(x) + f(y) 當我們呼叫add(-5, 6, abs)時，引數x，y和f分別接收-5，6和abs，根據函式定義，我們可以推導計算過程為：

Cats（三）：高階型別

本文由 Yison 發表在 ScalaCool 團隊部落格。我們已經知道函式式是一種更加抽象的程式設計思維方式，它所做的事情就是高度抽象業務物件，然後對其進行組合。談及抽象，你在 Java 中會經常接觸到一階的引數多型，這也是我們所熟悉的泛型。利用泛型多型，在很大程度上可以減少大量相同的程式

Python基礎（9）：高階函式（map,reduce,filter,sorted）

高階函式定義：一個函式，可以接收另一個函式作為引數，這種函式稱之為高階函式。理論基礎： 1：函式可以接收變數 2：函式名是指向函式的變數。例如：abs，原本指向一個計算絕對值的函式，將他指向123後，abs變數就不再具有計算絕對值的能力。 map/

基於springboot2 框架整合（2）：druid資料來源整合

前言專案中使用了很多現成的框架，都是專案經理、架構師帶來的，從來沒有自己整合過！這次決定自己從零開始整合一次，以學習鞏固。過程中參考很多開源框架的思路，工具類等，若有侵權，請速速聯絡，一定妥善處理一：簡介 druid是alibaba開源的資料庫連線池，號

Linux基礎命令（四）：高階鍵盤操作與許可權控制——history、自動補全、命令列快捷鍵、歷史命令展開、id、chmod、umask、su、sudo、chown、chgrp、passwd

高階鍵盤操作 Linux終端支援各種快捷鍵操作。掌握這些快捷鍵以及命令列互動式編輯特性，基本可以告別滑鼠操作了。 clear －清空螢幕 history －顯示歷史列表內容小技巧：Linux的圖形使用者介面中，非最大化的視窗是預設隱藏頂部選項卡的，可以通過保持按

python數字影象處理（18）：高階形態學處理

形態學處理，除了最基本的膨脹、腐蝕、開/閉運算、黑/白帽處理外，還有一些更高階的運用，如凸包，連通區域標記，刪除小塊區域等。 1、凸包凸包是指一個凸多邊形，這個凸多邊形將圖片中所有的白色畫素點都包含在內。函式為： skimage.morphology.conv

SpringBoot（十一）：SpringBoot整合Kafka

一、準備工作提前說明：如果你執行出問題，請檢查Kafka的版本與SpringBoot的版本是否與我文中的一致，本文中的環境已經經過測試。 Kafka服務版本為 kafka_2.11-1.1.0 (Scala)，也就是1.1.0 SpringBoot版本：1.5.10.R

canal實戰（一）：canal連線kafka實現實時同步mysql資料

前面已經介紹過了canal-kafka的應用。canal-kafka是把kafka作為客戶端，嵌入到canal中，並且在canal基礎上對原始碼進行了修改，以達到特定的實現canal到kafka的傳送。 canal-kafka是阿里雲最近更新的一個新的

Elasticsearch實戰（三）：高階搜尋（中文+拼音+首字母+簡繁轉換+補全）

1、中文搜尋、英文搜尋、中英混搜如：“紫光股份”，“紫光gufen” 2、全拼搜尋、首字母搜尋、中文+全拼、中文+首字母混搜如：“ziguanggufen”，“紫光gufen”，“紫光gf”，“zggf”，“ziguanggf”等等組合 3、簡繁搜尋 4.關鍵

python基礎（一）：高階特性

切片：用於提取陣列或者元組內部分元素 e.g: 迭代使用for迴圈來遍歷list或者tuple e.g 請使用迭代查詢一個list中最小和最大值，並返回一個tuple： def find(l): if l!=[]: max

使用Mahout實現推薦系統（一）：MySQL資料來源的簡單推薦

最近在做推薦系統，以前從沒接觸過，通過查閱，瞭解到一些推薦系統相關的開源框架，對比了下，使用Java開發的Mahout比較適合，通過學習，簡單實現了一些功能，通過這篇文章記錄一下，後續學習到進一步用法還會更新這個系列。使用mysql作為資料來源，新建一張

JAVA 8函數語言程式設計（一）：高階函式

函數語言程式設計的核心在高階函式與偏函式，在JAVA 8中，提供了很多函式式的介面，但跟Python、Javascript的函式相比較，還是存在較大的距離。首先看一個高階函式的例子，這裡利用區域性變數域特性，進行延遲求值，如下： /** * 輸入一

Java核心技術（卷二）：高階特性中文第9版英文第10版 Core Java Volume II【帶目錄高清pdf下載】

放心下載pdf地址：必看理由：Java入門必看暢銷書，核心技術的卷二，經典中的經典，與《Java程式設計思想》並稱為Java入門的“倚天劍”和“屠龍刀”。豆瓣評分：8.5美國亞馬遜評分：4.8網友評論：（豆瓣網友）卷二雖然是高階特性，但是其中的io、檔案系統、正則表示式、網路

PHP 學習筆記（四）：高階教程：Cookies，Sessions，郵件，錯誤處理，異常處理，過濾器

PHP Cookies cookie 常用於識別使用者。什麼是 Cookie？ cookie 常用於識別使用者。cookie 是伺服器留在使用者計算機中的小檔案。每當相同的計算機通過瀏覽器請求頁面時，它同時會發送 cookie。通過 PHP，您能夠建

android studio git使用總結（二）：高階篇分支管理

轉載請標註來源：http://blog.csdn.net/lsyz0021/article/details/51842774 前段時間寫過一篇文章介紹如何在AndroidStudio使用上傳專案到github，今天接著給大家帶來了他的高階篇——新建分支（branch

TensorFlow學習（十七）：高階API之tf.layers

之前寫的程式碼都是基於比較底層的API了，底層的API其實是有好處的，雖然還是調API，但是至少對於原理有小小的理解才能夠寫出程式碼。而且在實現一些新的論文或者要實現一個新的點子的時候，這時候是沒有API的，因此底層的API非常有存在的必要，且必須經過這一個過程

SparkStreaming（12）：高階資料來源kafka Receiver方式（生產）

1.準備環境

2.開發程式碼

3.測試

（經測試成功！）

相關推薦