SparkStreaming《三》讀取kafka資料，增量儲存在Mysql裡

阿新 • • 發佈：2018-12-31

一、SparkStreaming讀取kafka資料

package org.apache.spark.examples.streaming
import java.sql.{PreparedStatement, Connection, DriverManager}
import java.util.concurrent.atomic.AtomicInteger
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.StreamingContext._
import org.apache.spark.storage.StorageLevel

object NetworkWordCountStateful {
  def main(args: Array[String]) {
    //定義狀態更新函式
    val updateFunc = (values: Seq[Int], state: Option[Int]) => {
      val currentCount = values.foldLeft(0)(_ + _)
      val previousCount = state.getOrElse(0)
      Some(currentCount + previousCount)
    }
    StreamingExamples.setStreamingLogLevels()  //設定log4j日誌級別
    val conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCountStateful")
    val sc = new StreamingContext(conf, Seconds(5))
    sc.checkpoint("file:///usr/local/spark/mycode/streaming/dstreamoutput/")    //設定檢查點，檢查點具有容錯機制
    val lines = sc.socketTextStream("localhost", 9999)
    val words = lines.flatMap(_.split(" "))
    val wordDstream = words.map(x => (x, 1))
    val stateDstream = wordDstream.updateStateByKey[Int](updateFunc)
    stateDstream.print()
        //下面是新增的語句，把DStream儲存到MySQL資料庫中     
     stateDstream.foreachRDD(rdd => {
      //內部函式
      def func(records: Iterator[(String,Int)]) {
        var conn: Connection = null
        var stmt: PreparedStatement = null
        try {
          val url = "jdbc:mysql://localhost:3306/spark"
          val user = "root"
          val password = "hadoop"  //筆者設定的資料庫密碼是hadoop，請改成你自己的mysql資料庫密碼
          conn = DriverManager.getConnection(url, user, password)
          records.foreach(p => {
            val sql = "insert into wordcount(word,count) values (?,?)"
            stmt = conn.prepareStatement(sql);
            stmt.setString(1, p._1.trim)
                        stmt.setInt(2,p._2.toInt)
            stmt.executeUpdate()
          })
        } catch {
          case e: Exception => e.printStackTrace()
        } finally {
          if (stmt != null) {
            stmt.close()
          }
          if (conn != null) {
            conn.close()
          }
        }
      }

      val repartitionedRDD = rdd.repartition(3)
      repartitionedRDD.foreachPartition(func)
    })

    sc.start()
    sc.awaitTermination()
  }
}

二、使用sbt編譯：

cd /usr/local/spark/mycode/streaming/dstreamoutput
rm simple.sbt
vim simple.sbt

name := "Simple Project"
version := "1.0"
scalaVersion := "2.11.8"
libraryDependencies += "org.apache.spark" %% "spark-core" % "2.3.1"
libraryDependencies += "org.apache.spark" % "spark-streaming_2.11" % "2.3.1"
libraryDependencies += "org.apache.spark" % "spark-sql_2.11" % "2.3.1"

我的spark是2.3.1 scala是2.11.8

使用sbt進行打包

cd /usr/local/spark/mycode/streaming/dstreamoutput
/usr/local/sbt/sbt package

6.開始執行

/usr/local/spark/bin/spark-submit --class "org.apache.spark.examples.streaming.NetworkWordCountStateful" --jars /usr/local/spark/jars/mysql-connector-java-5.1.42-bin.jar /usr/local/spark/mycode/streaming/dstreamoutput/target/scala-2.11/simple-project_2.11-1.0.jar

7.開啟另一個終端：

nc -lk 9999
//現在你就可以在當前視窗內隨意輸入單詞，輸入一個單詞就回車，比如輸入下面單詞
hello
hadoop
spark
hello
spark

這時可以去mysql資料庫檢視資料庫裡的資料是否填充進去了。

三、貼一下pom的配置檔案：

  <properties>
        <spark.version>2.3.1</spark.version>
        <scala.version>2.11</scala.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <!--<dependency>-->
         <!--<groupId>org.apache.redis</groupId>-->
        <!--<artifactId>redis</artifactId>-->
        <!--<version>1.0</version>-->
        <!--</dependency>-->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.0.1</version>
            <!--<scope>provided</scope>-->
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <!--<dependency>-->
            <!--<groupId>org.apache.spark</groupId>-->
            <!--<artifactId>spark-mllib_${scala.version}</artifactId>-->
            <!--<version>${spark.version}</version>-->
        <!--</dependency>-->


    </dependencies>


    <build>
        <plugins>
            <plugin>
                <groupId>org.scala-tools</groupId>
                <artifactId>maven-scala-plugin</artifactId>
                <version>2.15.2</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>

            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.6.0</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>


            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-surefire-plugin</artifactId>
                <configuration>
                    <skip>true</skip>
                </configuration>
            </plugin>

        </plugins>
    </build>

在這裡有對於許可權需要注意：

chmod -R 777 * 是遞迴修改目錄及其下面的許可權

rwx 對應於421 第一個字元代表檔案（-）、目錄（d），連結（l）

第一個是目錄或檔案所有者的許可權，第二個是使用者所屬的組的許可權，與檔案所有者同一組的使用者的許可權是讀、寫但不能執行

第三個是：不與檔案所有者同組的其他使用者的許可權是讀不能寫和執行

SparkStreaming《三》讀取kafka資料，增量儲存在Mysql裡

一、SparkStreaming讀取kafka資料 package org.apache.spark.examples.streaming import java.sql.{PreparedStatement, Connection, DriverManager} import java.uti

python讀取sqlserver資料，並儲存到csv中

# -*- coding: utf-8 -*- """ @use:查詢17.11-18.1,18.6-18.8的PM2.5資料，匯出到csv """ import pymssql import xlwt import datetime from xml.dom.minidom import

spark streaming讀取kafka資料，記錄offset

如下是pom.xml檔案<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocati

sparkStreaming讀取kafka資料的2種方式

方式一 Receiver 使用Kafka的高層次Consumer API來實現。receiver從Kafka中獲取的資料都儲存在Spark Executor的記憶體中，然後Spa

ASP.NET MVC + EF 利用儲存過程讀取大資料，1億資料測試很OK

看到本文的標題，相信你會忍不住進來看看！沒錯，本文要講的就是這個重量級的東西，這個不僅僅支援單表查詢，更能支援連線查詢，加入一個表10W資料，另一個表也是10萬資料，當你用linq建立一個連線查詢然後

Java呼叫R ，從資料庫讀取資料，用R根據讀取的資料生成圖片儲存

Java呼叫R 以及用R生成的圖片儲存使用 png()可以保證圖片質量有人說繪製的圖片上有中文會出現亂碼，其實設定下字型就好了 family=‘STXihei’ Java呼叫R 以及用R生成的圖片儲存 Rserve的配置和啟動： ①安裝Rserve包。

11.6 hdfs讀取json資料，轉成DataFrame儲存到hdfs

讀取json或者parquet檔案建立一個DataFrame DataFrame儲存到某一個路徑下，預設儲存格式是parquet SaveMode.Overwrite：重寫 SparkConf conf = new SparkConf() .setAppName("S

Java讀取介面中的資料，並儲存到txt檔案中！

//建立讀取介面中資料的方法 public static String read() { URL url = null; BufferedReader reader = null; HttpURLConnection connection = null; I

python使用h5py讀取mat檔案資料，並儲存影象

1 安裝h5py sudo apt-get install libhdf5-dev sudo pip install h5py 假設你已經安裝好python和numpy模組 2 讀取mat檔案資

spark Streaming 直接消費Kafka資料，儲存到 HDFS 實戰程式設計實踐

最近在學習spark streaming 相關知識，現在總結一下主要程式碼如下 def createStreamingContext():StreamingContext ={ val sparkConf = new SparkConf().setAppName("

SparkStreaming讀取kafka資料進行反序列化以及mapPartition優化例項

val monitorWrappedMessage1 = KafkaUtils.createStream[String, Array[Byte], StringDecoder, DefaultDecoder]( ssc, kafkaParams, topic

讀取資料庫資料，以報表的形式顯示在前臺網頁（asp.net+echarts+ajax+資料庫）

1、首先在VS2010裡新建專案ASP.NET Web應用程式：WebApplication1；在應用程式裡新建專案：WebForm.aspx(Web窗體),Model.cs(類),Controller.cs(類),Handler.ashx(一般處理程式),WebForm.js(JScript

SQL與eclipse的連線，從資料庫讀取表資料，將二維陣列資料匯入表

示例： import java.util.List; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.Statement; impor

Keras_gan生成自己的資料，並儲存模型

from __future__ import print_function, division from keras.datasets import mnist from keras.layers import Input, Dense, Reshape, Flatten,

女同事半夜要我用Python讀取Excel資料，我用一行程式碼搞定！

分享一個實用問題，用python讀取Excel並儲存字典，如何做？關注薇信工宗號：程式設計師大牛，”即可獲取數十套Python學習資料！下面是該同學問題截圖和程式碼程式碼截圖是下面這樣的。學習資料也可以加下Python扣扣裙：304零五零799自己下載學習下

Spark Streaming接收kafka資料，輸出到HBase

需求 Kafka + SparkStreaming + SparkSQL + HBase 輸出TOP5的排名結果排名作為Rowkey，word和count作為Column 實現建立kafka生產者模擬隨機生產資料 object produ

Python爬蟲實戰：批量採集股票資料，並儲存到Excel中

小編說：通過本文，讀者可以掌握分析網頁的技巧、Python編寫網路程式的方法、Excel的操作，以及正則表示式的使用。這些都是爬蟲專案中必備的知識和技能。本文選自《Python帶我起飛》。例項描述：通過編寫爬蟲，將指定日期時段內的全部上市公司股票資料爬取下來，並按照股

資料預處理：讀取檔案資料，並存為python陣列

檔案的簡單讀取 # 定義一個將檔案中的資料轉化為陣列的類 import numpy as np class DataUtil: # =============================================================================

python讀取txt資料，轉換到excel表中

接收後臺模擬資料，存放在txt檔案中，需要轉換到excel中 txt中的資料格式為： recv message - 82815: {"export1": 0, "export0": 0, "export3": 1, "export2": 0, "export5": 0,

前臺通過js 寫個ajax請求把資料傳給後臺，然後後臺接收到這個資料，再儲存到資料庫。。

//前端js操作： function testAjax(){ var url="/testAjaxUrlJson/";//後臺接收處理url var txtContent= "textprm";//傳輸內容; var objData = [ { name

SparkStreaming《三》讀取kafka資料，增量儲存在Mysql裡

相關推薦