spark-sql的進階案例

阿新 • • 發佈：2019-01-05

（1）骨灰級案例--UDTF求wordcount

資料格式：
spark-sql的進階案例
每一行都是字串並且以空格分開。
程式碼實現：

object SparkSqlTest {
    def main(args: Array[String]): Unit = {
        //遮蔽多餘的日誌
        Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)
        Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
        Logger.getLogger("org.project-spark").setLevel(Level.WARN)
        //構建程式設計入口
        val conf: SparkConf = new SparkConf()
        conf.setAppName("SparkSqlTest")
            .setMaster("local[2]")

        val spark: SparkSession = SparkSession.builder().config(conf)
            .enableHiveSupport()
            .getOrCreate()

        //建立sqlcontext物件
        val sqlContext: SQLContext = spark.sqlContext
        val wordDF: DataFrame = sqlContext.read.text("C:\\z_data\\test_data\\ip.txt").toDF("line")
        wordDF.createTempView("lines")
        val sql=
            """
              |select t1.word,count(1) counts
              |from (
              |select explode(split(line,'\\s+')) word
              |from lines) t1
              |group by t1.word
              |order by counts
            """.stripMargin
        spark.sql(sql).show()
    }
}

結果：
spark-sql的進階案例

（2）視窗函式求topN

資料格式：
spark-sql的進階案例
取每門課程中成績最好的前三
程式碼實現：

object SparkSqlTest {
    def main(args: Array[String]): Unit = {
        //遮蔽多餘的日誌
        Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)
        Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
        Logger.getLogger("org.project-spark").setLevel(Level.WARN)
        //構建程式設計入口
        val conf: SparkConf = new SparkConf()
        conf.setAppName("SparkSqlTest")
            .setMaster("local[2]")

        val spark: SparkSession = SparkSession.builder().config(conf)
            .enableHiveSupport()
            .getOrCreate()

        //建立sqlcontext物件
        val sqlContext: SQLContext = spark.sqlContext
        val topnDF: DataFrame = sqlContext.read.json("C:\\z_data\\test_data\\score.json")
        topnDF.createTempView("student")
        val sql=
            """select
              |t1.course course,
              |t1.name name,
              |t1.score score
              |from (
              |select
              |course,
              |name,
              |score,
              |row_number() over(partition by course order by score desc ) top
              |from student) t1 where t1.top<=3
            """.stripMargin
        spark.sql(sql).show()
    }
}

結果：
spark-sql的進階案例

（3）SparkSQL去處理DataSkew資料傾斜的問題

思路： (使用兩階段的聚合)
- 找到發生資料傾斜的key
- 對發生傾斜的資料的key進行拆分
- 做區域性聚合
- 去後綴
- 全域性聚合
以上面的wordcount為例，找出相應的資料量比較大的單詞
程式碼實現：

object SparkSqlTest {
    def main(args: Array[String]): Unit = {
        //遮蔽多餘的日誌
        Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)
        Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
        Logger.getLogger("org.project-spark").setLevel(Level.WARN)
        //構建程式設計入口
        val conf: SparkConf = new SparkConf()
        conf.setAppName("SparkSqlTest")
            .setMaster("local[2]")

        val spark: SparkSession = SparkSession.builder().config(conf)
            .enableHiveSupport()
            .getOrCreate()
        //建立sqlcontext物件
        val sqlContext: SQLContext = spark.sqlContext
        //註冊UDF
        sqlContext.udf.register[String,String,Integer]("add_prefix",add_prefix)
        sqlContext.udf.register[String,String]("remove_prefix",remove_prefix)
        //建立sparkContext物件
        val sc: SparkContext = spark.sparkContext
        val lineRDD: RDD[String] = sc.textFile("C:\\z_data\\test_data\\ip.txt")
        //找出資料傾斜的單詞
        val wordsRDD: RDD[String] = lineRDD.flatMap(line => {
            line.split("\\s+")
        })
        val sampleRDD: RDD[String] = wordsRDD.sample(false,0.2)
        val sortRDD: RDD[(String, Int)] = sampleRDD.map(word=>(word,1)).reduceByKey(_+_).sortBy(kv=>kv._2,false)
        val hot_word = sortRDD.take(1)(0)._1
        val bs: Broadcast[String] = sc.broadcast(hot_word)

        import spark.implicits._
        //將資料傾斜的key打標籤
        val lineDF: DataFrame = sqlContext.read.text("C:\\z_data\\test_data\\ip.txt")
        val wordDF: Dataset[String] = lineDF.flatMap(row => {
            row.getAs[String](0).split("\\s+")
        })
        //有資料傾斜的word
        val hotDS: Dataset[String] = wordDF.filter(row => {
            val hot_word = bs.value
            row.equals(hot_word)
        })
        val hotDF: DataFrame = hotDS.toDF("word")
        hotDF.createTempView("hot_table")
        //沒有資料傾斜的word
        val norDS: Dataset[String] = wordDF.filter(row => {
            val hot_word = bs.value
            !row.equals(hot_word)
        })
        val norDF: DataFrame = norDS.toDF("word")
        norDF.createTempView("nor_table")
        var sql=
            """
              |(select
              |t3.word,
              |sum(t3.counts) counts
              |from (select
              |remove_prefix(t2.newword) word,
              |t2.counts
              |from (select
              |t1.newword newword,
              |count(1) counts
              |from
              |(select
              |add_prefix(word,3) newword
              |from hot_table) t1
              |group by t1.newword) t2) t3
              |group by t3.word)
              |union
              |(select
              | word,
              | count(1) counts
              |from nor_table
              |group by word)
            """.stripMargin
        spark.sql(sql).show()

    }
    //自定義UDF加字首
    def add_prefix(word:String,range:Integer): String ={
        val random=new Random()
        random.nextInt(range)+"_"+word
    }
    //自定義UDF去除字尾
    def remove_prefix(word:String): String ={
        word.substring(word.indexOf("_")+1)
    }
}

結果：
spark-sql的進階案例

spark-sql的進階案例

（1）骨灰級案例--UDTF求wordcount 資料格式：每一行都是字串並且以空格分開。程式碼實現： object SparkSqlTest { def main(args: Array[String]): Unit = { //遮蔽多餘的日誌 Logger.ge

Spark學習（拾）- Spark Streaming進階與案例實戰

實戰之updateStateByKey運算元的使用 updateStateByKey操作允許您在使用新資訊不斷更新狀態的同時維護任意狀態。要使用它，您需要執行兩個步驟。 1、定義狀態——狀態可以是任意資料型別。 2、定義狀態更新函式——用函式指定如何使用以前的狀態和輸入流中的新值更新

Linq To Sql進階系列（六）用object的動態查詢與保存log篇

directory ont 簡單 lambda表達式 bind add dbo 所有生成動態的生成sql語句，根據不同的條件構造不同的where字句，是拼接sql 字符串的好處。而Linq的推出，是為了彌補編程中的 Data != Object 的問題。我們又該如何實現

JMeter 深入進階性能測試進階案例實戰

高並發 lan 分層架構語言工作 mys 網絡拆分生命第1章性能測試整體認知了解性能測試的目的，想做好性能測試都需要掌握哪些方面的技能(開發語言、操作系統、網絡、工具等)。性能測試、穩定性、壓力、疲勞、容量預估、多並發邏輯。掌握如何開始性能測試，並且掌握在性能測

SQL進階17-變數的宣告/使用(輸出)--全域性變數/會話變數--使用者變數/區域性變數

/*進階17 變數系統變數: 全域性變數: 會話變數: 自定義變數: 使用者變數: 區域性變數: */ /* #一: 系統變數 #說明: 變數由系統提供,不是使用者定義的,屬於伺服器層面 #使用的語法 #1/檢視所有的系統變數

Spark Streaming整合Spark SQL之wordcount案例

完整原始碼地址： https://github.com/apache/spark/blob/v2.3.2/examples/src/main/scala/org/apache/spark/examples/streaming/SqlNetworkWordCount.scala 案例原

JMeter 深入進階效能測試進階案例實戰

第1章效能測試整體認知瞭解效能測試的目的，想做好效能測試都需要掌握哪些方面的技能(開發語言、作業系統、網路、工具等)。效能測試、穩定性、壓力、疲勞、容量預估、多併發邏輯。掌握如何開始效能測試，並且掌握在效能測試中每個部分的工作重點，瞭解軟體架構、監控部署、指令碼準備、場景設定及知道為什麼需要做這些。掌握：

JMeter效能測試進階案例實戰 JMeter 深入進階效能測試體系各領域企業實戰

課程簡介: 通過本課程的學習，能夠掌握目前最流行、最實用的效能測試的技術方案，能夠獨立完成效能測試，亦能夠帶領團隊解決企業級效能問題。學習本課程前，希望你已具備JAVA語言基礎，至少熟悉Java的語法及特性，最好自己寫過一點程式碼，對MySQL、Linux基礎知識有一定的瞭解，本

SQL 進階教程

內容簡介本書是《SQL 基礎教程》作者 MICK 為志在向中級進階的資料庫工程師編寫的一本 SQL 技能提升指南。全書可分為兩部分，第一部分介紹了 SQL 語言不同尋常的使用技巧，帶領讀者從 SQL 常見技術，比如 CASE 表示式、自連線、HAVING 子句、外連線、關聯子查詢、EXIST

第6章 Spark程式設計進階

6.1 簡介共享變數 1）累加器（accumulator）：用來對資訊進行聚合 2）廣播變數（broadcast variable）: 用來高效分發較大的物件基於分割槽處理、外部程式介面呼叫、彙總

SQL進階（上）

CASE表示式新手用WHERE字句進行條件分支，高手用SELECT字句進行條件分支 --男性人口 SELECT pref_name, SUM(population) FROM PopTbl2 WHERE sex='1' GROUP BY pref_nam

sql進階語句例項

1 多表查詢通過where 將表進行關聯表human，student資料如下圖：將兩表通過id欄位進行連線輸出 select t1.id,t1.name,t1.age,t1.sex,t2.chinese,t2.math,t2.english from hum

SQL進階練習題50道

表及資料 student SNO SNAME SAGE SSEX 01 趙雷 1990-01-01 00:00:00 男 02 錢電 1990-12-21 00:00:00 男 03 孫風

Oracle Insert增強與SQL進階

INSERT增強與SQL進階：一、同時向多張表中插入資料語法： INSERT ALL INTO （表1） VALUES (查出來的欄位1, 查出來的欄位2) INTO (表2) VALUES (查出來

Oracle基礎（五）pl/sql進階(分頁過程)

編寫分頁過程通過pl/sql實現分頁過程，再該過程中由簡單到難一步步深入，目的在於通過該案例熟悉pl/sql的各種儲存過程，包，遊標，如何在java中呼叫等內容的學習。 1、無返回值的儲存過程例如 1、可以向book表新增書，

Oracle PL/SQL進階程式設計（第五彈：包的進階技術）

包過載包過載實際上就是對包中的子程式的過載，之前我們已經對子程式的過載做過介紹，這裡簡單看下程式碼。定義包規範： CREATE OR REPLACE PACKAGE emp_action_pkg_overload IS --定義一個增加新員工

Oracle PL/SQL進階

Oracle PL/SQL進階控制結構在任何計算機語言(c,java,c#,c++)都有各種控制語句(條件語句，迴圈語句，順序控制結構..)在pl/sql中也存在這樣的控制結構。條件分支語句 pl/sql中提供了三種條件分支語句 if--then if--t

Oracle PL/SQL進階程式設計（第十五彈：動態SQL語句）

理解動態SQL語句動態SQL語句基礎動態SQL語句不僅是指SQL語句是動態拼接而成的，更主要的是SQL語句所使用的物件也是執行時期才建立的。出現這種功能跟PL/SQL本身的早起繫結特性有關，早PL/SQL中，所有的物件必須已經存在於資料庫中才能執行，

Spark SQL電影分析案例

用Spark SQL分析熱門電影的TopN 1.資料結構 users.dat 5220::M::25::7::91436 5221::F::56::1::96734 5222::M::25::12::94501 5223::M::56::10

分享《SQL進階教程》高清中文PDF+原始碼

下載：https://pan.baidu.com/s/11-MnDu0khzwO4tiJqHznnA 《SQL進階教程》高清中文PDF+原始碼下載：https://pan.baidu.com/s/1a-JepzWU77yH0IUfBiLPPw 《SQL基礎教程(第2版)》高清中文PDF+示例程式+習題

spark-sql的進階案例

（1）骨灰級案例--UDTF求wordcount

（2）視窗函式求topN

（3）SparkSQL去處理DataSkew資料傾斜的問題

相關推薦