【八】Spark Streaming 用foreachRDD把結果寫入Mysql中Local模式（使用Scala語言）

阿新 • • 發佈：2019-01-03

DStream 的foreachRDD是允許把資料傳送到外部檔案系統中。然而使用不當會導致各種問題。

錯誤示範1：在driver建立連線，在woker使用。會報錯connection object not serializable。

錯誤示範2：rdd每個記錄都建立連線，成本非常高。

正確示範：拿到rdd以後foreachPartition，每個partition建立連線，而且使用資料庫連線池。

專案目錄

pom.xml

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>com.sid.spark</groupId>
  <artifactId>spark-train</artifactId>
  <version>1.0</version>
  <inceptionYear>2008</inceptionYear>
  <properties>
    <scala.version>2.11.8</scala.version>
    <kafka.version>0.9.0.0</kafka.version>
    <spark.version>2.2.0</spark.version>
    <hadoop.version>2.9.0</hadoop.version>
    <hbase.version>1.4.4</hbase.version>
  </properties>

  <repositories>
    <repository>
      <id>scala-tools.org</id>
      <name>Scala-Tools Maven2 Repository</name>
      <url>http://scala-tools.org/repo-releases</url>
    </repository>
  </repositories>

  <pluginRepositories>
    <pluginRepository>
      <id>scala-tools.org</id>
      <name>Scala-Tools Maven2 Repository</name>
      <url>http://scala-tools.org/repo-releases</url>
    </pluginRepository>
  </pluginRepositories>

  <dependencies>
    <dependency>
      <groupId>org.scala-lang</groupId>
      <artifactId>scala-library</artifactId>
      <version>${scala.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.kafka</groupId>
      <artifactId>kafka_2.11</artifactId>
      <version>${kafka.version}</version>
    </dependency>

    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-client</artifactId>
      <version>${hadoop.version}</version>
    </dependency>

    <!--<dependency>-->
      <!--<groupId>org.apache.hbase</groupId>-->
      <!--<artifactId>hbase-clinet</artifactId>-->
      <!--<version>${hbase.version}</version>-->
    <!--</dependency>-->

    <!--<dependency>-->
      <!--<groupId>org.apache.hbase</groupId>-->
      <!--<artifactId>hbase-server</artifactId>-->
      <!--<version>${hbase.version}</version>-->
    <!--</dependency>-->

    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-streaming_2.11</artifactId>
      <version>${spark.version}</version>
    </dependency>

    <dependency>
      <groupId>net.jpountz.lz4</groupId>
      <artifactId>lz4</artifactId>
      <version>1.3.0</version>
    </dependency>

    <dependency>
      <groupId>mysql</groupId>
      <artifactId>mysql-connector-java</artifactId>
      <version>5.1.31</version>
    </dependency>

  </dependencies>

  <build>
    <sourceDirectory>src/main/scala</sourceDirectory>
    <testSourceDirectory>src/test/scala</testSourceDirectory>
    <plugins>
      <plugin>
        <groupId>org.scala-tools</groupId>
        <artifactId>maven-scala-plugin</artifactId>
        <executions>
          <execution>
            <goals>
              <goal>compile</goal>
              <goal>testCompile</goal>
            </goals>
          </execution>
        </executions>
        <configuration>
          <scalaVersion>${scala.version}</scalaVersion>
          <args>
            <arg>-target:jvm-1.5</arg>
          </args>
        </configuration>
      </plugin>
      <plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-eclipse-plugin</artifactId>
        <configuration>
          <downloadSources>true</downloadSources>
          <buildcommands>
            <buildcommand>ch.epfl.lamp.sdt.core.scalabuilder</buildcommand>
          </buildcommands>
          <additionalProjectnatures>
            <projectnature>ch.epfl.lamp.sdt.core.scalanature</projectnature>
          </additionalProjectnatures>
          <classpathContainers>
            <classpathContainer>org.eclipse.jdt.launching.JRE_CONTAINER</classpathContainer>
            <classpathContainer>ch.epfl.lamp.sdt.launching.SCALA_CONTAINER</classpathContainer>
          </classpathContainers>
        </configuration>
      </plugin>
    </plugins>
  </build>
  <reporting>
    <plugins>
      <plugin>
        <groupId>org.scala-tools</groupId>
        <artifactId>maven-scala-plugin</artifactId>
        <configuration>
          <scalaVersion>${scala.version}</scalaVersion>
        </configuration>
      </plugin>
    </plugins>
  </reporting>
</project>

程式碼

package com.sid.spark

import java.sql.DriverManager

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * Created by jy02268879 on 2018/7/17.
  *
  * 使用Spark Streaming完成詞頻統計
  * 使用foreachRDD將結果寫入MySQL
  *
  */
object ForeachRDDWriteMySQL {

  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setAppName("UpdateStateByKey")setMaster("local[2]")

    val ssc = new StreamingContext(sparkConf,Seconds(5))

    val lines = ssc.socketTextStream("node1",6789)

    val result = lines.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)


    //TODO... 將結果寫入MySQL
    result.foreachRDD ( rdd => {
      rdd.foreachPartition(partitionOfRecords => {
        val connection = createConnection()
        partitionOfRecords.foreach(record => {
          val querySql = "SELECT t.word_count FROM wordcount t WHERE t.word = '"+record._1+"'"
          val queryResultSet = connection.createStatement().executeQuery(querySql)
          val hasNext = queryResultSet.next()
          print("MySQL had word:"+record._1+ " already  :  "+hasNext)
          if(!hasNext){
            val insertSql = "insert into wordcount(word,word_count) values('" + record._1 + "'," + record._2 + ")"
            connection.createStatement().execute(insertSql)

          }else{
            val newWordCount = queryResultSet.getInt("word_count") + record._2
            val updateSql = "UPDATE wordcount SET word_count = "+newWordCount+" where word = '"+record._1+"'"
            connection.createStatement().execute(updateSql)
          }
        })
        connection.close()
      })
    })

    ssc.start()
    ssc.awaitTermination()

  }

  /**
    * 獲取MySQL的連線
    * */
  def createConnection()={
    Class.forName("com.mysql.jdbc.Driver")
    DriverManager.getConnection("jdbc:mysql://localhost:3306/sid","root","資料庫密碼")
  }

}

在node1上啟動nc

nc -lk 6789

IDEA執行專案

在nc輸入

IDEA控制檯

mysql結果

在nc又輸入 a a a此時有5個了

IDEA控制檯

mysql結果

在nc又輸入 b b

IDEA控制檯

mysql結果

啟動專案報錯

java.lang.NoSuchMethodError: javax.servlet.http.HttpServletRequest.isAsyncSupported()Z
	at org.spark_project.jetty.servlet.DefaultServlet.sendData(DefaultServlet.java:936)
	at org.spark_project.jetty.servlet.DefaultServlet.doGet(DefaultServlet.java:525)
	at javax.servlet.http.HttpServlet.service(HttpServlet.java:707)
	at javax.servlet.http.HttpServlet.service(HttpServlet.java:820)
	at org.spark_project.jetty.servlet.ServletHolder.handle(ServletHolder.java:845)
	at org.spark_project.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:583)
	at org.spark_project.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1180)
	at org.spark_project.jetty.servlet.ServletHandler.doScope(ServletHandler.java:511)
	at org.spark_project.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1112)
	at org.spark_project.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)
	at org.spark_project.jetty.server.handler.gzip.GzipHandler.handle(GzipHandler.java:461)
	at org.spark_project.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:213)
	at org.spark_project.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:134)
	at org.spark_project.jetty.server.Server.handle(Server.java:524)
	at org.spark_project.jetty.server.HttpChannel.handle(HttpChannel.java:319)
	at org.spark_project.jetty.server.HttpConnection.onFillable(HttpConnection.java:253)
	at org.spark_project.jetty.io.AbstractConnection$ReadCallback.succeeded(AbstractConnection.java:273)
	at org.spark_project.jetty.io.FillInterest.fillable(FillInterest.java:95)
	at org.spark_project.jetty.io.SelectChannelEndPoint$2.run(SelectChannelEndPoint.java:93)
	at org.spark_project.jetty.util.thread.strategy.ExecuteProduceConsume.executeProduceConsume(ExecuteProduceConsume.java:303)
	at org.spark_project.jetty.util.thread.strategy.ExecuteProduceConsume.produceConsume(ExecuteProduceConsume.java:148)
	at org.spark_project.jetty.util.thread.strategy.ExecuteProduceConsume.run(ExecuteProduceConsume.java:136)
	at org.spark_project.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:671)
	at org.spark_project.jetty.util.thread.QueuedThreadPool$2.run(QueuedThreadPool.java:589)
	at java.lang.Thread.run(Thread.java:745)

描述：沒有找到javax.servlet.http.HttpServletRequest類的isAsyncSupported方法

解決

搜尋HttpServletRequest類

刪除所有引用的servlet-api-2.X.jar，它的javax.servlet.http.HttpServletRequest類沒有isAsyncSupported方法，且覆蓋了有該方法的servlet-api-3.X.jar

【八】Spark Streaming 用foreachRDD把結果寫入Mysql中Local模式（使用Scala語言）

DStream 的foreachRDD是允許把資料傳送到外部檔案系統中。然而使用不當會導致各種問題。錯誤示範1：在driver建立連線，在woker使用。會報錯connection object not serializable。錯誤示範2：rdd每個記錄都建立連

【轉】Spark Streaming和Kafka整合開發指南

thread ada 關系方法拷貝理解 1.2 reduce arr 基於Receivers的方法這個方法使用了Receivers來接收數據。Receivers的實現使用到Kafka高層次的消費者API。對於所有的Receivers，接收到的數據將會保存在Spark

Spark Streaming的foreachRDD把處理後的資料寫入外部儲存系統中

1.程式碼 dstream.foreachRDD { rdd => rdd.foreachPartition { partitionOfRecords => // ConnectionPool is a static, lazily initial

【六】Spark Streaming接入HDFS的資料Local模式（使用Scala語言）

Spark Streaming接入HDFS的資料模擬一個wordcount的功能，結果列印到控制檯，使用Local模式，使用Scala語言。專案目錄 pom.xml <project xmlns="http://maven.apache.org/POM/4.

【 MATLAB 】使用 MATLAB 作圖討論有限長序列的 N 點 DFT（強烈推薦）（含MATLAB指令碼）

但是這篇博文我最初設計的是使用MATLAB指令碼和影象來討論的，而上篇博文全是公式，因此，還是單獨成立了一篇，但是我還是希望看這篇博文之前還是先看看上篇博文。我預設你已經看了上篇博文。本博文的討論建立在一個案例的基礎上：設x(n)是4點序列為：計算x(

【聯絡】二項分佈的對數似然函式與交叉熵（cross entropy）損失函式

1. 二項分佈二項分佈也叫 0-1 分佈，如隨機變數 x 服從二項分佈，關於引數 μ（0≤μ≤1），其值取 1 和取 0 的概率如下： {p(x=1|μ)=μp(x=0|μ)=1−μ 則在 x

【FTP】批處理向FTP上傳具有指定屬性的檔案（增量備份）

問題背景描述：怎樣實現對一個目錄裡的幾個檔案自動上傳FTP時只上傳有歸檔屬性的檔案，然後FTP上傳成功後自動清除(本機)剛上傳檔案的歸檔屬性，批處理可以實現到嗎？有點類似於對檔案增量備份的功能吧。 @echo off rem 指定FTP使用者名稱 set ftpUser

終於把貪食蛇弄出來了（C語言）

inf pos 容易發布 com 初學總結 info src 真不容易，小小的貪食蛇，居然這麽有難度。從圖片可以看出，卡頓，閃爍比較嚴重，而且比較簡陋。初學者，做成這樣，我覺得還算不錯，恩繼續學習。額，代碼先不貼了，先總結一下，整理好之後再發布終於把貪食蛇弄出來

pvuv的程式碼開發及提交spark程式jar包執行讀取資料來源並將結果寫入MySQL中

目錄 PvUvToMysql類 ConnectionUtils類 jdbc.properties檔案在IDEA中打jar包的兩種方式 IDEA打jar包 IDEA中maven方式打jar包提交spark程式ja

IntelliJ IDEA構建基於maven的spark+hbase工程（scala語言）

摘要利用IDEA來編寫基於maven的scala程式，主要功能用來支援從hbase中拉取資料供spark進行mapreduce運算。軟體準備不需要javaee支援的話，直接選擇Community版本就行了，畢竟免費，也足夠支援maven,sc

用遞迴方法求n的階乘（C語言）

用遞迴方法求n！ #include<stdio.h> int main() { int fac(int n); int n; int y; printf("

【Spark深入學習 -15】Spark Streaming前奏-Kafka初體驗

rod htm 新的 callback tails 包括 -c 舉例清理 ----本節內容------- 1.Kafka基礎概念 1.1 出世背景 1.2 基本原理 1.2.1.前置知識 1.2.2.架構和原理 1.2.

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記三之銘文升級版

聚集配置文件 ssi path fig rect 擴展 str 控制臺銘文一級： Flume概述Flume is a distributed, reliable, and available service for efficiently collecting(收集),

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記五之銘文升級版

環境變量 local server 節點數 replicas conn 配置環境 park 所有銘文一級：單節點單broker的部署及使用 $KAFKA_HOME/config/server.propertiesbroker.id=0listenershost.name

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記九之銘文升級版

file sin ssi 右上角 result map tap 核心內容銘文一級：核心概念：StreamingContext def this(sparkContext: SparkContext, batchDuration: Duration) = { th

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記十之銘文升級版

state 分鐘 mooc 系統數據使用連接 var style stream 銘文一級：第八章：Spark Streaming進階與案例實戰 updateStateByKey算子需求：統計到目前為止累積出現的單詞的個數(需要保持住以前的狀態) java.lang.I

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記十五之銘文升級版

spa for 序列 html art mat div pre paths 銘文一級：[木有筆記] 銘文二級：第12章 Spark Streaming項目實戰行為日誌分析： 1.訪問量的統計 2.網站黏性 3.推薦 Python實時產生數據訪問URL->IP

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記十六之銘文升級版

.so zook orm 3.1 date nta highlight org 結果銘文一級： linux crontab 網站：http://tool.lu/crontab 每一分鐘執行一次的crontab表達式： */1 * * * * crontab -e */1

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記十七之銘文升級版

eid 實時 root 現在 ava == oop urn 啟動銘文一級：功能1：今天到現在為止實戰課程的訪問量 yyyyMMdd courseid 使用數據庫來進行存儲我們的統計結果 Spark Streaming把統計結果寫入到數據庫裏面可視化前端根據：yyy

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記二十之銘文升級版

.get frame 結果取數據 lena echarts object 原理四種銘文一級： Spring Boot整合Echarts動態獲取HBase的數據1）動態的傳遞進去當天的時間 a) 在代碼中寫死 b) 讓你查詢昨天的、前天的咋辦？在頁面中放一個時間插

【八】Spark Streaming 用foreachRDD把結果寫入Mysql中Local模式（使用Scala語言）

相關推薦