Databricks 第9篇：Spark SQL 基礎（資料型別、NULL語義）

阿新 • • 發佈：2021-01-25

Spark SQL 支援多種資料型別，併兼容Python、Scala等語言的資料型別。

一，Spark SQL支援的資料型別

整數系列：

BYTE, TINYINT：表示1B的有符號整數
SHORT, SMALLINT：表示2B的有符號整數
INT, INTEGER：表示4B的有符號整數
LONG, BIGINT：表示8B的有符號整數

小數系列：

FLOAT, REAL：表示4B的單精度浮點數
DOUBLE：表示8B的雙精度浮點數
DECIMAL, DEC, NUMERIC：表示任意精度的帶符號十進位制數字，精確數

日期和時間型別：

DATE：表示日期
TIMESTAMP：表示日期和時間

INTERVAL：表示Calendar Interval

其他型別：

STRING：文字型別
BINARY：位元組序列
BOOLEAN：布林值

複合型別：

ARRAY<element_type>
STRUCT<field1_name: field1_type, field2_name: field2_type, …>
MAP<key_type, value_type>

二，Spark SQL支援的資料型別和pyspark.sql.types 之間的對映關係

datetime.datetime 對應 TIMESTAMP
datetime.date 對應 DATE

list, tuple, array 對應 ARRAY<element_type> 和 STRUCT<field1_name: field1_type, field2_name: field2_type, …>
dict 對應MAP<key_type, value_type>
int 或 long 對應整數
float 對應浮點小數
decimal.Decimal 對應精確數
bool 對應布林值
bytearray 對應 BINARY
string 對應文字型別

三，Spark SQL的Date和Timestamp函式

Spark SQL通常使用字串來表示Date和Timestamp型別的值，字串要跟Date和Timestamp相互轉換，在轉換時，可以設定格式引數fmt，按照特定的格式來相互轉換。

fmt是格式字串，由相應的模式來指定格式：

dd：以兩位數字顯示月份中的天數
MM：以兩位數字顯示月份
yyyy：以4位數字顯示年份
HH：以2位數字顯示24小時制
ss：以2位數字顯示秒數
S：小數秒

1，表示Date或timestamp

方法1：用字串轉換為Date或timestamp

date '1970-1-03'
timestamp '1970-1-03 04:05:06.78'

方法2：把字串按照特定的格式轉換為Date或timestamp

to_date(date_str[,fmt])
to_timestamp(timestamp_str[,fmt])

方法2：用數字構造Date或timestamp

make_date(year,month,day)
make_timestamp(year,month,day,hour,min,sec[,timezone])

2，把Date和timestamp轉換為string

date_format(timestamp,fmt)

舉個例子，把Date和timestamp按照特定的格式轉換位字串：

select date_format(date '1970-1-03', "yyyy-MM-dd");
--1970-01-03
select date_format(timestamp '1970-1-03 04:05:06.78', "yyyy-MM-dd HH:mm:ss.SS");
--1970-01-03 04:05:06.78

3，當前的Date和Timestamp

current_date()
current_timestamp()
now()  -- current timestamp

4，提取Date和Timestamp的成分

field：是指year、month、day、hour、minute、second，

source：是指Date或Timestamp

date_part(field,source)

year(date)
month(date)
day(date)
hour(timestamp)
minute(timestamp)
second(timestamp)

5，unixtimestamp

unix timestamp是用數字來表示timestamp

unix_timestamp([timeExp[format]])

from_unixtime(unix_time,format)
to_unix_timestamp(timeExp[,format])

6，Date和Timestamp操作

以day或month為單位來對Date和Timestamp進行操作：

add_months(start_date,num_months)
months_between(timestamp1,timestamp2[,roundOff])

date_add(start_date,num_days)
date_sub(start_date,num_days)
datediff(endDate,startDate)

截斷到特定的時間成分：

-- truncate timestamp
date_trunc(fmt,ts)

-- truncate date
trunc(date,fmt)

7，UTC時間

from_utc_timestamp(timestamp,timezone)
to_utc_timestamp(timestamp,timezone)

四，文字（literal）

文字常量是指用文字表示一個固定不變的量，

1，16進位制的位元組序列

X { 'num [ ... ]' | "num [ ... ]" }

2，Date 和 Timestamp Literal

DATE  'yyyy-[m]m-[d]d[T]' 
TIMESTAMP  'yyyy-[m]m-[d]d[T][h]h:[m]m:[s]s.[ms][ms][ms][us][us][us][zone_id]'

五，NULL語義

Spark SQL也支援三值邏輯，任何兩個值比較的結果是：True、False和Unknown，NULL代表Unknown（未知值）。

1，比較運算

NULL和任何值（包括NULL）進行比較，返回的都是NULL，為了比較NULL值，Spark提供了一個null-safe的“等於運算子” <=>，該運算子的運算邏輯是：

NULL <=> NULL，返回True

NULL <=> 任意非NULL，返回False

2，邏輯運算子

Spark支援的邏輯運算子是AND, OR和 NOT

NOT NULL 返回NULL

NULL AND false 返回false，NULL AND true， NULL AND NULL都返回NULL

NULL OR true 返回true， NULL OR NULL，NULL OR false 都返回 NULL

3，判斷NULL值的函式

ISNULL(null) 返回true

ISNAN(null) 返回false

參考文件：

SQL reference for Databricks Runtime 7.x

NULL seman

Databricks 第9篇：Spark SQL 基礎（資料型別、NULL語義）

Spark SQL 支援多種資料型別，併兼容Python、Scala等語言的資料型別。一，Spark SQL支援的資料型別整數系列： BYTE, TINYINT：表示1B的有符號整數 SHORT, SMALLINT：表示2B的有符號整數 INT, INTEGER：表示4B的有符號整數 LONG, BIG

Databricks 第11篇：Spark SQL 查詢（行轉列、列轉行、Lateral View、排序）

本文分享在Azure Databricks中如何實現行轉列和列轉行，並介紹對查詢的結果進行排序的各種方式。一，行轉列在分組中，把每個分組中的某一列的資料連線在一起： collect_list：把一個分組中的列合成為陣列，資料不去重，格式是['a','a','b'] collect_set：把一個分組中的

第九篇：Spark SQL 源碼分析之 In-Memory Columnar Storage源碼分析之 cache table

gravity base field eof 授權葉子節點 command ref gist /** Spark SQL源碼分析系列文章*/ Spark SQL 可以將數據緩存到內存中，我們可以見到的通過調用cache table tableName即可將一張表緩

第十篇：Spark SQL 源碼分析之 In-Memory Columnar Storage源碼分析之 query

pro .net asn 解析 partition store exec attr_ array /** Spark SQL源碼分析系列文章*/ 前面講到了Spark SQL In-Memory Columnar Storage的存儲結構是基於列存儲的。那

第四篇：Spark SQL Catalyst源碼分析之TreeNode Library

pla where 並且手冊 input bst node lec esc /** Spark SQL源碼分析系列文章*/ 前幾篇文章介紹了Spark SQL的Catalyst的核心運行流程、SqlParser，和Analyzer，本來打算直接寫Optimizer

第二篇：Spark SQL Catalyst源碼分析之SqlParser

end from pop tco 循環 -c font 多個再看 /** Spark SQL源碼分析系列文章*/ Spark SQL的核心執行流程我們已經分析完畢，可以參見Spark SQL核心執行流程，下面我們來分析執行流程中各個核心組件的工作職責。

第一篇：Spark SQL源碼分析之核心流程

example 協議 bst copyto name 分詞 oop 不同 spl /** Spark SQL源碼分析系列文章*/ 自從去年Spark Submit 2013 Michael Armbrust分享了他的Catalyst，到至今1年多了,Spark SQ

R實戰第三篇：數據處理（基礎）

計算 edi 字符數定義函數空間數值 sqrt 字符類 ceil 數據結構用於存儲數據，不同的數據結構對應不同的操作方法，對應不同的分析目的，應選擇合適的數據結構。在處理數據時，為了便於檢查數據對象，可以通過函數attributes(x)來查看數據對象的屬性，str(

第六篇：匯編基礎指令講解

錯誤 info 其他不能 mov指令位或簡單的圖解 strong 目錄基礎匯編代碼 LDR(load) STR(store) B MOV(move) LDR（註意跟讀內存的LDR不一樣，格式不同） add（加） sub（減） BL(branch and Link

【搞定Java併發程式設計】第9篇：CAS詳解

上一篇：volatile關鍵字詳解：https://blog.csdn.net/pcwl1206/article/details/84881395 目錄：一、CAS基本概念 1.1、CAS的定義 1.2、CAS的3個運算元二、Java如何實現原子操作

第五篇：Python函式基礎篇

　　本篇介紹什麼是函式、函式的特性、函式的定義、函式的呼叫、以及函式的引數、以及關於全域性變數和區域性變數的使用等等。一、什麼是函式：　　函式是最基本的一種程式碼抽象方式，為了實現某種特定的功能而組織的帶名字的程式碼塊。　　那為什麼要使用函式呢？　　　　1、避

第67課：Spark SQL下采用Java和Scala實現Join的案例綜合實戰（鞏固前面學習的Spark SQL知識）

內容： 1.SparkSQL案例分析 2.SparkSQL下采用Java和Scala實現案例一、SparkSQL下采用Java和Scala實現案例學生成績： {"name":"Michael","score":98} {"name":"Andy"

第68課：Spark SQL通過JDBC操作MySQL

內容： 1.SparkSQL操作關係資料庫意義 2.SparkSQL操作關係資料庫一、通過SparkSQL操作關係資料庫意義 1.SparkSQL可以通過jdbc從傳統關係型資料庫中讀寫資料，讀取資料後直接生成DataFrame，然後在加上藉助

第72課：Spark SQL UDF和UDAF解密與實戰

內容： 1.SparkSQL UDF 2.SparkSQL UDAF 一、SparkSQL UDF和SparkSQL UDAF 1.解決SparkSQL內建函式不足問題，自定義內建函式， 2.UDF：User Define Functio

第73課：Spark SQL Thrift Server實戰

內容： 1.SparkSQL Thrift解析與測試 2.SparkSQL Thrift Server JDBC程式設計一、SparkSQL Thrift解析與測試 ThriftServer是一個JDBC/ODBC介面，使用者可以通過JDBC/

第80課：Spark SQL網站搜尋綜合案例實戰

內容： 1.案例分析 2.案例實戰一、案例分析專案：以京東找出搜尋平臺排名的產品，The hottest 元資料：date，u

第79課：Spark SQL基於網站Log的綜合案例綜合程式碼和實際執行測試

內容： 1.熱門論壇板塊排名 2.綜合程式碼實戰和測試一、熱門論壇板塊排版建立表： spark.sql("createtable userlogs(date st

第76課：Spark SQL實戰使用者日誌的輸入匯入Hive及SQL計算PV實戰

內容： 1.Hive資料匯入操作 2.SparkSQL對資料操作實戰一、Hive資料匯入操作 create table userLogs(date String,timestamp bigint,userI

第75課：Spark SQL基於網站Log的綜合案例實戰

內容： 1.案例概述 2.資料來源和分析一、案例概述 PV：頁面訪問數 UV：獨立訪問數二、資料來源和分析 packag

第71課：Spark SQL視窗函式解密與實戰

內容： 1.SparkSQL視窗函式解析 2.SparkSQL視窗函式實戰一、SparkSQL視窗函式解析 1.spark支援兩種方式使用視窗函式： &nb

Databricks 第9篇：Spark SQL 基礎（資料型別、NULL語義）

一，Spark SQL支援的資料型別

二，Spark SQL支援的資料型別和pyspark.sql.types 之間的對映關係

三，Spark SQL的Date和Timestamp函式

四，文字（literal）

五，NULL語義

相關推薦