第69課：Spark SQL通過Hive資料來源實戰

阿新 • • 發佈：2018-12-26

內容：

1.Spark SQL操作Hive解析
2.SparkSQL操作Hive實戰

一、Spark SQL操作Hive解析

   1.在目前企業級大資料Spark開發的時候，絕大多數是採用Hive作為資料倉庫的spark提供Hive的支援功能，Spark通過HiveContex可以操作Hive中的資料，基於HiveContext可以使用sql/hsql兩種方式編寫SQL語句對Hive進行操作，包括建立表、從刪除表、往表裡匯入資料構造各種SQL語法構造各種sql語句對錶中的資料進行操作；
   2.也可以直接通過saveAsTable的方式把DataFrame中的資料儲存到Hive資料倉庫中
   3.可以直接通過HiveContext.table方法直接載入Hive中的表來生成dataframe

二、SparkSQL操作Hive實戰

資料score.txt

Michael	98
Andy	95
Justin	91

資料people.txt

Michael	29
Andy	30
Justin	19

程式碼示例

import org.apache.spark.sql.SparkSession
import org.apache.spark.{SparkConf, SparkContext}


/**
  * FileName: SparkSQLToHive
  * Author:   hadoop
  * Email:    [email protected] 

  * Date:     18-11-9 下午12:25
  * Description:
  */
object SparkSQLToHive {
  def main(args: Array[String]): Unit = {
    //建立SparkConf用於讀取系統資訊並設定運用程式的名稱
    val conf = new SparkConf().setMaster("local").setAppName("SparkSQLToHive")
    //建立JavaSparkContext物件例項作為整個Driver的核心基石
    val sc = new SparkContext(conf)
    //設定輸出log的等級,可以設定INFO,WARN,ERROR
    sc.setLogLevel("INFO")
    //建立SQLContext上下文物件，用於SqL的分析
  val hiveContext = SparkSession
    .builder()
    .enableHiveSupport()
    .appName("SparkSQLToHive")
    .config("spark.some.config.option", "some-value")
    .getOrCreate()
    /**
      * 在目前企業級大資料Spark開發的時候，絕大多數是採用Hive作為資料倉庫的spark提供Hive的支援功能，Spark通過HiveContex可以操作Hive中的資料
      * 基於HiveContext可以使用sql/hsql兩種方式編寫SQL語句對Hive進行操作，
      * 包括建立表、從刪除表、往表裡匯入資料構造各種SQL語法構造各種sql語句對錶中的資料進行操作；
      * 二、也可以直接通過saveAsTable的方式把DataFrame中的資料儲存到Hive資料倉庫中
      * 三、可以直接通過HiveContext.table方法直接載入Hive中的表來生成dataframe
      */
    hiveContext.sql("use hive") //使用Hive資料倉庫中的hive資料庫
    hiveContext.sql("drop table if exists people") //刪除同名的table
    hiveContext.sql("create table if not exists people (name String,age Int)") //建立自定義的table
    hiveContext.sql("load data local inpath '/home/hadoop/people/people.txt' into table people") //匯入本地資料到Hive資料倉庫中，背後實際上發生了資料的拷貝，當然也可以通過load data input去獲得HDFS等上面的資料到Hive（此時發生資料的移動）
    hiveContext.sql("drop table if exists score")
    hiveContext.sql("create table if not exists score (name String,score Int)")
    hiveContext.sql("load data local inpath '/home/hadoop/people/people.txt' into table score")


    //   通過HiveContext使用join直接基於Hive中的兩張表進行操作獲得成績大於90分的人的name,age,score
    val resultDS = hiveContext.sql("select people.name,people.age,score.score from people join score on people.name = score.name")

    /**
      * 通過registerTempTable建立一張Hive Manager Table ，資料的元資料和資料即將具體的資料位置都是由Hive資料倉庫進行管理，當刪除的時候，資料也會一起被刪除（磁碟上的資料也被刪除）
      */
    hiveContext.sql("drop table if exists peopleinfor")
    resultDS.registerTempTable("peopleinfor")


      //* 使用HiveContext的table方法可以直接去讀取Hive資料倉庫中的table並生成DataFrame，接下來可以進行機器學習、圖計算、各種複雜etl等操作
    val dataFromHive = hiveContext.table("peopleinfor")
    dataFromHive.show()
  }

}

第69課：Spark SQL通過Hive資料來源實戰

內容：

一、Spark SQL操作Hive解析

二、SparkSQL操作Hive實戰

第69課：Spark SQL通過Hive資料來源實戰

第68課：Spark SQL通過JDBC操作MySQL

第76課：Spark SQL實戰使用者日誌的輸入匯入Hive及SQL計算PV實戰

第67課：Spark SQL下采用Java和Scala實現Join的案例綜合實戰（鞏固前面學習的Spark SQL知識）

第72課：Spark SQL UDF和UDAF解密與實戰

第73課：Spark SQL Thrift Server實戰

第80課：Spark SQL網站搜尋綜合案例實戰

第79課：Spark SQL基於網站Log的綜合案例綜合程式碼和實際執行測試

第75課：Spark SQL基於網站Log的綜合案例實戰

第71課：Spark SQL視窗函式解密與實戰

第70課：Spark SQL內建函式解密與實戰

大資料Spark “蘑菇雲”行動補充內容第70課： Spark SQL程式碼實戰和效能調優 4個spark sql調優技巧有用！！！！

大資料IMF傳奇行動絕密課程第63課：Spark SQL下Parquet內幕深度解密

大資料IMF傳奇行動絕密課程第64課：Spark SQL下Parquet的資料切分和壓縮內幕詳解

第124課：Spark Streaming效能優化：通過Spark Streaming進行裝置日誌監控報警及效能優化

第九篇：Spark SQL 源碼分析之 In-Memory Columnar Storage源碼分析之 cache table

第十篇：Spark SQL 源碼分析之 In-Memory Columnar Storage源碼分析之 query

第四篇：Spark SQL Catalyst源碼分析之TreeNode Library

第14課：spark RDD彈性表現和來源，容錯

第12課：spark高可用(HA)框架

第69課：Spark SQL通過Hive資料來源實戰

內容：

一、Spark SQL操作Hive解析

二、SparkSQL操作Hive實戰

相關推薦