spark的JDBC連線池（Scala版）

阿新 • • 發佈：2018-12-21

一個Scala版的連線池，並在使用Spark Streaming進行Word Count時，把每批資料都存到mySql中

import java.sql.{Connection, DriverManager}
import java.util

object JDBCConnectePools02 {
  private val max = 10  //設定連線最大數
  private val ConnectionNum = 10   //設定 每次可以獲取幾個Connection
  private var conNum =   0//連線數
  private val pool = new util.LinkedList 
[Connection]()  //連線池

  def getDriver() : Unit = {  //載入Driver
    //載入
    if(conNum < max && pool.isEmpty){
      Class.forName("com.mysql.jdbc.Driver")

    }else if(conNum>=max && pool.isEmpty){
      print("當前暫無可用Connection")
      Thread.sleep(2000)
      getDriver()
    }
  }
  def getConn 
(): Connection ={
    if(pool.isEmpty){
      getDriver()
      for(i <- 1 to ConnectionNum){  //建立10個連線
        val conn = DriverManager.getConnection("jdbc:mysql://hadoop01:3306/updatewordcount","root","root")
        pool.push(conn) //  把連線放到連線池中，push是LinkedList中的方法
        conNum += 1
      }
    }
    val conn: 
 Connection = pool.pop()//從執行緒池所在LinkedList中彈出一個Connection,pop 是LinkedList的方法
    conn //返回一個Connection
  }

  def returnConn( conn :Connection): Unit ={ //還連線
    pool.push(conn)
  }

}

一個簡單的使用，使用sparkStreaming，盡心wordCount,每次把結果放到MySql 中

import java.sql.{Connection, PreparedStatement}

import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Duration, StreamingContext}

object JDBCWordCont02 {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("wc").setMaster("local[2]")
    //新建一個StreamingContext，每個5s是一個批次
    val ssc = new StreamingContext(conf,new Duration(5000))
   //接受hadoop01主機的 8888埠的資料
    val data: ReceiverInputDStream[String] = ssc.socketTextStream("hadoop01",8888)
    //進行切分壓平
    val split: DStream[String] = data.flatMap(_.split(" "))
    //單詞和1組合
    val wordAndOne: DStream[(String, Int)] = split.map((_,1))
    //對rdd進行遍歷，想要使用foreachPartition 需要foreachRDD ，
    //對裡面的rdd進行操作，DStream中沒有foreachpartition方法，
    //如果直接使用foreach方法不好，會大量的去連線，還連線，對效能有影響
    wordAndOne.foreachRDD(rdd=>{
    //對RDD中的資料進行聚合
      val reduced: RDD[(String, Int)] = rdd.reduceByKey(_+_)
      reduced.foreachPartition(item =>{
      //獲取連線
        val conn: Connection = JDBCConnectePools02.getConn()
     
        for(one <- item){ //把聚合後的資料存到mysql 中
          val pstm: PreparedStatement = conn.prepareStatement("insert into  wordcount(word,count) values(?,?)")
          pstm.setString(1,one._1)
          pstm.setInt(2,one._2)
          pstm.executeUpdate()
        }
      //還連線
        JDBCConnectePools02.returnConn(conn)



      })
    })

    ssc.start()
    ssc.awaitTermination()
  }


}

spark的JDBC連線池（Scala版）

一個Scala版的連線池，並在使用Spark Streaming進行Word Count時，把每批資料都存到mySql中 import java.sql.{Connection, DriverManager} import java.util object J

spark HelloWorld程序（scala版）

special hide dst tproxy top targe 提取 main read 使用本地模式，不需要安裝spark，引入相關JAR包即可： <dependency> <groupId>or

基於編輯距離來判斷詞語相似度方法（scala版）

使用 ref ray 只需要 art 算法位置 spark else 詞語相似性比較，最容易想到的就是編輯距離，也叫做Levenshtein Distance算法。在Python中是有現成的模塊可以幫助做這個的，不過代碼也很簡單，我這邊就用scala實現了一版。編輯

Spark Streaming狀態管理函式（二）——updateStateByKey的使用（scala版）

updateStateByKey的使用關於updateStateByKey 注意事項示例程式碼執行結論關於updateStateByKey 1.重點：首先會以DStream中的資料進行按key做reduce操作，然

Spark Streaming狀態管理函式（三）——MapWithState的使用（scala版）

MapWithState 關於mapWithState 注意事項示例程式碼執行結論關於mapWithState 需要自己寫一個匿名函式func來實現自己想要的功能。如果有初始化的值得需要，可以使用initia

spark中各種transformation運算元操作（scala版）

package cn.spark.study.core import org.apache.spark.SparkConf import org.apache.spark.SparkContext

Spark 2.0 機器學習 ML 庫：特徵提取、轉化、選取（Scala 版）

一、前言二、程式碼 1.TF-IDF（詞頻-逆向文件頻率） TF（詞頻Term Frequency）：HashingTF不CountVectorizer用於生成詞頻TF向量。 HashingTF是一個特徵詞集的轉換器（Tr

spring-boot整合mybatis和druid連線池（多資料來源）

上一篇文章介紹了 spring-boot整合mybatis和druid連線池如何配置和使用，本篇文章是上篇的擴充套件，如果業務中出現了需要從多個數據源中獲取資料，到底該如何實現？本文主要介紹在一種最為簡單的實現方案：多資料來源 - 多例項。在上篇文章中不難看出Spring

Spark中的各種action運算元操作（scala版）

這裡直接貼程式碼了，action的介紹都在java那裡。 package cn.spark.study.core import org.apache.spark.SparkConf import org.apache.spark.SparkContext

kafka生產者消費者API 與sparkStreaming 整合（scala版）

maven配置檔案  <dependency>

線程池代碼（通用版）

line cor 使用場景鏈表 http sde 依次線程 HR 一、適用場景首先，必須明確一點，線程池不是萬能的，它有其特定的使用場景。使用線程池是為了減小線程本身的開銷對應用性能所產生的影響，但是其前提是線程本身創建、銷毀的開銷和線程執行任務的開銷相比是

Java 連線池（使用DBCP與C3P0）

DBCP 　　需要下載common-dbcp.jar和common-pool.jar。　　下載網址（下載xxx-bin.zip即可）：　　　　http://commons.apache.org/proper/commons-dbcp/download_dbcp.cgi 　　　　http://com

Java——Web開發之開源的資料庫連線池（C3P0與DBCP）的使用

緊接上一篇資料庫連線池的學習，點連線直達~ 資料庫連線池的簡單理解與使用資料庫連線池DBCP程式碼連線與配置檔案： 1.先匯入使用的jar檔案，分別是dbcp.jar與pool.jar檔案 2.分別使用兩種方式實現，使用配置檔案(dbcpconfig.

Java個人總結——JDBC資料庫連線池（二）

三種常見的資料庫連線池一、DBCP連線池 DBCP(DataBase connection pool),[資料庫連線池]。是 apache 上的一個 java 連線池專案，也是 tomcat 使用的連線池元件。單獨使用dbcp需要2個包：commons-dbcp.

常用資料庫連線池（dbpc,c3p0,Druid）

1. 引言 1.1 定義資料庫連線是一種關鍵的有限的昂貴的資源，這一點在多使用者的網頁應用程式中體現得尤為突出。對資料庫連線的管理能顯著影響到整個應用程式的伸縮性和健壯性，影響到程式的效能指標。資料庫連線池正是針對這個問題提出來的。資料庫連線池負責分配、管理和釋放資料庫連線，它允許應

配置資料庫連線池（資料來源）--------java利用BasicDataSource

DataSource又稱為資料來源，該類的目的是為了防止使用資料庫時不必要操作帶來的資源浪費，使用資料庫時需要進行資料庫連線，才可以使用資料庫，使用資料庫後，又要斷開連結，用來釋放資源。連結資料庫和斷開資料庫連線浪費資源，而且在頻繁操作資料庫的時候，如果按照沒有資料來源的方式

IOC整合JDBC模板&連線池（17）

整合Spring自帶連線池 <bean id="dataSource" class="org.springframework.jdbc.datasource.DriverManagerDataSource"> <property

java執行緒池原理（入門版）——看完還不懂我直播吃香

網上關於java執行緒池的部落格，大多是直接分析ThreadPoolExecutor類的實現，但是他們就像是做中文翻譯一樣，但是很少有講到本質的東西。這篇部落格從根本出發，看完可以自己實現一個簡單執行緒池。下面正式開始。一、我們知道，用java建立一條新執行

Spark WordCount簡單案例（java,scala版）

Spark 是什麼？官方文件解釋：Apache Spark™ is a fast and general engine for large-scale data processing.通俗的理解：Spark是基於記憶體計算的大資料平行計算框架。Spark基於記憶體計算，提高了

mysql資料庫的連線以及增刪改查Java程式碼實現（Statement版）

資料庫： create table t1(id int primary key not null auto_increment,name varchar(32),password varchar(32)); insert into t1(name,password) va

spark的JDBC連線池（Scala版）

相關推薦