Spark學習（柒）- Spark SQL擴充套件和總結

阿新 • • 發佈：2018-12-09

文章目錄

Spark SQL使用場景
Spark SQL載入資料

1) RDD DataFrame/Dataset
2) Local Cloud(HDFS/S3)

DataFrame與SQL的對比
Schema
SaveMode
處理複雜的JSON資料
SQL的覆蓋程度
外部資料來源

Spark SQL使用場景

檔案中資料的特殊查詢（即席查詢；即席查詢是可以進行特殊的欄位查詢自定義的查詢；普通查詢就是別人已經定義好的查詢方式）

實時SQL分析流資料
可以進行ETL操作
與外部資料庫的互動
具有更大叢集的可伸縮查詢效能

Spark SQL載入資料

直接將資料載入到一個DataFrame中
將資料載入到RDD並進行轉換
可以從本地和雲端載入資料

啟動一個spark-shell
在這裡插入圖片描述

1) RDD DataFrame/Dataset

用本地spark的啟動日誌來進行測試

//將資料載入成RDD
val masterLog = sc.textFile("file:///home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-hadoop001.out" 
)
val workerLog = sc.textFile("file:///home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-hadoop001.out")
val allLog = sc.textFile("file:///home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/logs/*out*")

在這裡插入圖片描述

輸出檢視

存在的問題：如何使用SQL進行查詢呢？

//轉換成DataFrame
import org.apache.spark. 
sql.Row
val masterRDD = masterLog.map(x => Row(x))
import org.apache.spark.sql.types._
val schemaString = "line"

val fields = schemaString.split(" ").map(fieldName => StructField(fieldName, StringType, nullable = true))
val schema = StructType(fields)

val masterDF = spark.createDataFrame(masterRDD, schema)
masterDF.show

在這裡插入圖片描述

把DF轉換成一個表；使用SQL操作

如果檔案是JSON/Parquet格式；不需要建立schema；DF可以直接拿取。

val usersDF = spark.read.format("parquet").load("file:///home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/users.parquet")
usersDF.show

sql裡Spark提供了直接使用sql來查詢parquet檔案。

spark.sql("select * from  parquet.`file:///home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/users.parquet`").show

2) Local Cloud(HDFS/S3)

從Cloud讀取資料: HDFS/S3(s3a/s3n)

val hdfsRDD = sc.textFile("hdfs://path/file")
val s3RDD = sc.textFile("s3a://bucket/object")

spark.read.format("text").load("hdfs://path/file")
spark.read.format("text").load("s3a://bucket/object")

DataFrame與SQL的對比

DataFrame=RDD+Schema
DataFrame只是一個Dataset的row類型別名
在RDD上的DataFrame:Catalyst optimization&schemas
DataFrame可以處理:Text、JSON、Parquet等等
DF中的API和SQL函式都是經過Catalyst優化的

Schema

隱式的（inferred）：比如Parquet，orc等
顯式的（explicit）：比如文字檔案

示例操作
https://blog.csdn.net/bingdianone/article/details/84580342#t5

SaveMode

Loading&Saving Results
Save操作可以選擇使用SaveMode，它指定如何處理現有資料。
在這裡插入圖片描述

val df=spark.read.format("json").load("file:///home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/people.json")

df.show

df.select("name").write.format("parquet").mode("overwrite").save("file:///home/hadoop/data/overwrite")

在這裡插入圖片描述

處理複雜的JSON資料

JSON資料最容易在換行時被讀入
Schema是很容易進行推導的
如果你希望flat你的JSON資料，請使用explode方法
使用點語法訪問巢狀物件

臨時表操作

內嵌式的json訪問

註冊成臨時表

SQL的覆蓋程度

SQL 2003的支援
執行99個TPC-DS基準測試查詢
子查詢支援
向量化支援（一次可以讀取1024行）

外部資料來源

rdbms、need JDBC jars
Parquet、Phoenix、csv、 avro etc

https://blog.csdn.net/bingdianone/article/details/84585293

Spark學習（柒）- Spark SQL擴充套件和總結

文章目錄 Spark SQL使用場景 Spark SQL載入資料 1) RDD DataFrame/Dataset 2) Local Cloud(HDFS/S3) DataFrame與SQL的對比

Spark學習（拾）- Spark Streaming進階與案例實戰

實戰之updateStateByKey運算元的使用 updateStateByKey操作允許您在使用新資訊不斷更新狀態的同時維護任意狀態。要使用它，您需要執行兩個步驟。 1、定義狀態——狀態可以是任意資料型別。 2、定義狀態更新函式——用函式指定如何使用以前的狀態和輸入流中的新值更新

Spark學習（玖）- Spark Streaming核心概念與程式設計

文章目錄核心概念之StreamingContext 核心概念之DStream 核心概念之Input DStreams和Receivers 基本資源高階資源核心概念之Transformat

Spark學習（捌）- Spark Streaming入門

文章目錄 spark概念 Spark Streaming應用場景 Spark Streaming整合Spark生態系統的使用 Spark Streaming發展史從詞頻統計功能著手入門Spark Streaming

Spark學習（陸）- Spark操作外部資料來源

文章目錄產生背景概念目標操作Parquet檔案資料操作Hive表資料操作MySQL表資料操作MySQL的資料方法一: 操作MySQL的資料方法二: 操作MySQL

Spark學習（一）--Spark入門介紹和安裝

本次主要介紹spark的入門概念和安裝 Spark概念 Spark安裝 Spark HA 高可用部署 1. Spark概念 1.1 什麼是Spark Spark 是一種快速、通用、可擴充套件的大資料分析引擎， 2009 年誕生於加州大學伯克利分校 AM

Spark學習（五）---RDD原理解析和spark執行架構

這次我們介紹RDD的原理和spark執行機制 RDD依賴關係 RDD快取 RDD容錯機制 spark執行架構 spark任務排程 1. RDD原理首先我們對之前的單詞統計的程式碼做一個畫圖展示 1.1 RDD依賴關係 RDD和它依賴的父RDD的關係有兩

Spark學習（八）---Spark streaming原理

這次我們介紹spark streaming,今天主要是原理和相關的操作 Spark Streaming概念介紹 Spark Streaming的相關操作 1. Spark Streaming概念 1.1什麼是Spark Streaming Spark St

Spark學習（一）Spark介紹

一、什麼是spark spark是基於記憶體計算的大資料平行計算框架，也是hadoop中的mapreduce的替代方案，但和mapreduce又有許多不同。 Spark包含了大資料領域常見的各種計算框架：比如Spark Core用於離線計算，Spark SQL

Spark學習（肆）- 從Hive平滑過渡到Spark SQL

文章目錄 SQLContext的使用 HiveContext的使用 SparkSession的使用 spark-shell&spark-sql的使用 spark-shell spark-sql thri

spark中flatMap函數用法--spark學習（基礎）

比較一次 ica 例子 tail details word fix spark spark中flatMap函數用法--spark學習（基礎）在spark中map函數和flatMap函數是兩個比較常用的函數。其中 map：對集合中每個元素進行操作。 fl

spark學習（1）--ubuntu14.04集群搭建、配置（jdk）

RM int 5.0 java_home 輸入 str cas Go 比較環境：ubuntu14.04 1、文本模式桌面模式切換 ctrl+alt+F6 切換到文本模式 ctrl + alt +F7 /輸入命令startx切換到桌面模式 2、更改Ip地址、主機名 /

Spark學習（二）——RDD的設計與運行原理

center data 創建組成分享圖片 img medium 列操作信息 Spark的核心是建立在統一的抽象RDD之上，使得Spark的各個組件可以無縫進行集成，在同一個應用程序中完成大數據計算任務。RDD的設計理念源自AMP實驗室發表的論文《Resilient

Spark學習（伍）- DateFrame&Dataset

文章目錄 DataFrame產生背景 DataFrame概述 DataFrame和RDD的對比 DataFrame基本API操作 DataFrame與RDD互操作方式 DataFrame API操作案例實戰

Spark學習（叄）- 環境搭建

文章目錄 Spark原始碼編譯 1 寫在前面的話 2 前置準備 2.1 Java7的安裝 2.1.1 下載 2.1.2 安裝 2.2 Maven3.3.9的安裝

Spark 學習（6）

SparkStream 邏輯當ssc啟動之後，driver會執行一個長時間執行的Task 作為Reveiver的executors，接受傳來的資料收到資料，並將其分成塊儲存在記憶體中這寫塊也會被賦值給另一個Executors，以免資料丟失每個

Spark學習（二）

RDD（resilient distributed dataset） RDD概念 RDD（Resilient Distributed Dataset）是一個彈性分散式資料集，是SPark提供的抽象的彈性分散式資料集(RDD)，它是可以並行操作的跨叢集節點的元素集

Spark學習（一）——Scala基礎學習

scala是一門多正規化程式語言，集成了面向物件程式設計和函數語言程式設計等多種特性。scala執行在虛擬機器上，併兼容現有的Java程式。Scala原始碼被編譯成java位元組碼，所以執行在JVM上，並可以呼叫現有的Java類庫。1、第一個Scala程式:Scala和Jav

Mysql學習（三）Spark（Scala）寫入Mysql的兩種方式

package total import org.apache.spark.sql.{DataFrame, Row, SQLContext, SparkSession} import org.apache.spark.{SparkConf, SparkContext} imp

Spark學習（一）—— 論文翻譯

================================ 彈性分散式資料集：基於記憶體叢集計算的容錯抽象摘要我們提出的彈性分散式資料集（RDDs），是一個讓程式設計師在大型叢集上以容錯的方式執行基於記憶體計算的分散式記憶體抽象

Spark學習（柒）- Spark SQL擴充套件和總結

文章目錄

Spark SQL使用場景

Spark SQL載入資料

1) RDD DataFrame/Dataset

2) Local Cloud(HDFS/S3)

DataFrame與SQL的對比

Schema

SaveMode

處理複雜的JSON資料

SQL的覆蓋程度

外部資料來源

相關推薦