背景

我們的資料探勘平臺對資料統計有比較迫切的需求，而Spark本身對資料統計已經做了一些工作，希望梳理一下Spark已經支援的資料統計功能，後期再進行擴充套件。

準備資料

在參考文獻6中下載鳶尾花資料，此處格式為iris.data格式，先將data字尾改為csv字尾（不影響使用，只是為了保證後續操作不需要修改）。

資料格式如下：

SepalLength	SepalWidth	PetalLength	PetalWidth	Name
5.1	3.5	1.4	0.2	Iris-setosa
4.9	3	1.4	0.2	Iris-setosa
4.7	3.2	1.3	0.2	Iris-setosa
4.6	3.1	1.5	0.2	Iris-setosa
5	3.6	1.4	0.2	Iris-setosa
5.4	3.9	1.7	0.4	Iris-setosa
4.6	3.4	1.4	0.3	Iris-setosa

資料說明見附錄中的鳶尾花資料。

我們先把資料放到Spark sql數倉中

CREATE TABLE IF NOT EXISTS iris ( SepalLength FLOAT , SepalWidth FLOAT 
  , PetalLength FLOAT , PetalWidth FLOAT 
  , Species VARCHAR(100) 
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/mnt/disk1/starqiu/iris';

表的分析與統計

Analyze Table語法如下：

ANALYZE TABLE [db_name.]table_name COMPUTE STATISTICS [analyze_option]

Collect statistics about the table that can be used by the query optimizer to find a better plan.

可以看到Spark表的分析可以為spark sql做查詢優化，以便得到更好的查詢效能。Spark Sql預設使用CBO（基於代價的優化），這在多表join查詢時尤其有用。

此處的analyze_option

引數主要分為兩類，表統計和列統計。

表統計

表的基本統計資訊一般包括記錄總數和所佔空間。

Table statistics用法如下：

ANALYZE TABLE [db_name.]table_name COMPUTE STATISTICS [NOSCAN]

Collect only basic statistics for the table (number of rows, size in bytes).

NOSCAN
Collect only statistics that do not require scanning the whole table (that is, size in bytes).

執行命令ANALYZE TABLE iris COMPUTE STATISTICS;可以得到表的記錄總數和所佔空間大小。如果不想全表掃描，加上NOSCAN關鍵字，不會全表掃描，但只能得到所佔空間大小。

表統計資訊的描述命令語法如下：

DESCRIBE [EXTENDED] [db_name.]table_name

Return the metadata of an existing table (column names, data types, and comments). If the table does not exist, an exception is thrown.

EXTENDED
Display detailed information about the table, including parent database, table type, storage information, and properties.
Describe Partition

執行DESCRIBE EXTENDED iris;，結果如下：

spark-sql> DESCRIBE EXTENDED iris;
SepalLength float   NULL
SepalWidth  float   NULL
PetalLength float   NULL
PetalWidth  float   NULL
Species string  NULL
        
# Detailed Table Information    CatalogTable(
    Table: `default`.`iris`
    Owner: root
    Created: Sat Feb 16 17:24:32 CST 2019
    Last Access: Thu Jan 01 08:00:00 CST 1970
    Type: EXTERNAL
    Schema: [StructField(SepalLength,FloatType,true), StructField(SepalWidth,FloatType,true), StructField(PetalLength,FloatType,true), StructField(PetalWidth,FloatType,true), StructField(Species,StringType,true)]
    Provider: hive
    Properties: [rawDataSize=-1, numFiles=0, transient_lastDdlTime=1550311815, totalSize=0, COLUMN_STATS_ACCURATE=false, numRows=-1]
    Statistics: sizeInBytes=3808, rowCount=150, isBroadcastable=false
    Storage(Location: hdfs://data126:8020/mnt/disk1/starqiu/iris, InputFormat: org.apache.hadoop.mapred.TextInputFormat, OutputFormat: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat, Serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Properties: [field.delim=,, serialization.format=,])
    Partition Provider: Catalog)    
Time taken: 0.112 seconds, Fetched 7 row(s)

通過Statistics:可以看到表的記錄總數是150條，所佔空間3808B，約4KB。

列統計

Column statistics用法如下：

ANALYZE TABLE [db_name.]table_name COMPUTE STATISTICS FOR COLUMNS col1 [, col2, ...]

Collect column statistics for the specified columns in addition to table statistics.

Tip

Use this command whenever possible because it collects more statistics so the optimizer can find better plans. Make sure to collect statistics for all columns used by the query.

列統計的描述命令語法如下：

DESCRIBE [EXTENDED][db_name.]table_name column_name

New in version runtime-3.3.

EXTENDED
Display detailed information about the specified columns, including the column statistics collected by the command ANALYZE TABLE table_name COMPUTE STATISTICS FOR COLUMNS column_name [column_name, ...].

需要注意的是這個功能在runtime-3.3版本才有的特性，而runtime-3.3封裝的是Spark 2.2，會詳見文末附錄的databricks Runtime版本與Spark版本的對應關係

執行命令ANALYZE TABLE iris COMPUTE STATISTICS FOR COLUMNS SepalLength, SepalWidth, PetalLength, PetalWidth, Species;計算指定多列的統計資訊，

執行DESCRIBE EXTENDED iris SepalLength;獲取指定一列的統計資訊，結果如下：

spark-sql> ANALYZE TABLE iris COMPUTE STATISTICS FOR COLUMNS SepalLength, SepalWidth, PetalLength, PetalWidth, Species;
Time taken: 4.45 seconds
spark-sql> DESCRIBE EXTENDED iris PetalWidth;
col_name    PetalWidth
data_type   float
comment NULL
min 0.10000000149011612
max 2.5
num_nulls   0
distinct_count  21
avg_col_len 4
max_col_len 4
histogram   NULL
Time taken: 0.104 seconds, Fetched 10 row(s)

目前測試Spark2.2.2不支援該語句，但是Spark2.4.0支援。如果不支援，則可以通過訪問hive的元資料庫也可以得到這些資訊，sql語句如下：

select param_key, param_value 
from TABLE_PARAMS tp, TBLS t 
where tp.tbl_id=t.tbl_id and tbl_name = 'iris' 
and param_key like 'spark.sql.stat%';

以下是PetalWidth列的統計結果，可以看到包含不重複的記錄數，空值數，最大值、最小值，平均長度以及最大長度

param_key	param_value
spark.sql.statistics.colStats.PetalWidth.avgLen	4
spark.sql.statistics.colStats.PetalWidth.distinctCount	21
spark.sql.statistics.colStats.PetalWidth.max	2.5
spark.sql.statistics.colStats.PetalWidth.maxLen	4
spark.sql.statistics.colStats.PetalWidth.min	0.10000000149011612
spark.sql.statistics.colStats.PetalWidth.nullCount	0
spark.sql.statistics.colStats.PetalWidth.version	1

總結

可以看到這些統計資訊不僅對了解資料質量非常有用，對使用Spark sql進行查詢也能得到優化，進一步提升速度。後續再寫一篇CBO如何利用這些資訊進行優化。

目前還不清楚Runtime中的Spark功能和開源版的有無差異，但Spark2.4支援表的分析統計操作，建議平臺後續專案升級到Spark2.4 。

附錄

鳶尾花資料說明

Iris資料集是常用的分類實驗資料集，由Fisher, 1936收集整理。Iris也稱鳶尾花卉資料集，是一類多重變數分析的資料集。資料集包含150個數據集，分為3類，每類50個數據，每個資料包含4個屬性。iris以鳶尾花的特徵作為資料來源，常用在分類操作中。該資料集由3種不同型別的鳶尾花的50個樣本資料構成。其中的一個種類與另外兩個種類是線性可分離的，後兩個種類是非線性可分離的。

四個屬性：

Sepal.Length（花萼長度），單位是cm;

Sepal.Width（花萼寬度），單位是cm;

Petal.Length（花瓣長度），單位是cm;

Petal.Width（花瓣寬度），單位是cm;

三個種類：

Iris Setosa（山鳶尾）；

Iris Versicolour（雜色鳶尾）；

Iris Virginica（維吉尼亞鳶尾）。

databricks Runtime

Runtime是databricks 統一分析平臺的一部分，官網描述如下：

Accelerate innovation by unifying data science, engineering and business, with the Databricks Unified Analytics Platform, from the original creators of Apache Spark™.

Runtime的描述如下：

Simplify operations and get up to 50x better performance with cloud-optimized Apache Spark™.

可以看到主要是基於雲優化來簡化操作並提升50倍以上的效能。

databricks Runtime版本與Spark版本的對應關係

Current Releases

Version	Spark Version	Release Date	Deprecation Announcement	Deprecation Date
5.2	Spark 2.4	Jan 24, 2019	May 27, 2019	Sep 30, 2019
5.1	Spark 2.4	Dec 18, 2018	Apr 18, 2019	Aug 19, 2019
5.0	Spark 2.4	Nov 08, 2018	Mar 08, 2019	Jul 08, 2019
4.3	Spark 2.3	Aug 10, 2018	Dec 09, 2018	Apr 09, 2019
4.2	Spark 2.3	Jul 09, 2018	Nov 05, 2018	Mar 05, 2019
3.5-LTS	Spark 2.2	Dec 21, 2017	Jan 02, 2019	Jan 02, 2020

Marked for Deprecation

Version	Spark Version	Release Date	Deprecation Announcement	Deprecation Date
4.3	Spark 2.3	Aug 10, 2018	Dec 09, 2018	Apr 09, 2019
4.2	Spark 2.3	Jul 09, 2018	Nov 05, 2018	Mar 05, 2019
3.5-LTS	Spark 2.2	Dec 21, 2017	Jan 02, 2019	Jan 02, 2020

Deprecated Releases

Version	Spark Version	Release Date	Deprecation Announcement	Deprecation Date
4.1	Spark 2.3	May 17, 2018	Sep 17, 2018	Jan 17, 2019
4.0	Spark 2.3	Mar 01, 2018	Jul 01, 2018	Nov 01, 2018
3.4	Spark 2.2	Nov 20, 2017	Mar 31, 2018	Jul 30, 2018
3.3	Spark 2.2	Oct 04, 2017	Mar 31, 2018	Jul 30, 2018
3.2	Spark 2.2	Sep 05, 2017	Jan 30, 2018	Apr 30, 2018
3.1	Spark 2.2	Aug 04, 2017	–	Oct 30, 2017
3.0	Spark 2.2	Jul 11, 2017	–	Sep 05, 2017
Spark 2.1 (Auto Updating)	Spark 2.1	Dec 22, 2016	Mar 31, 2018	Jul 30, 2018
Spark 2.1.1-db6	Spark 2.1	Aug 03, 2017	Mar 31, 2018	Jul 30, 2018
Spark 2.1.1-db5	Spark 2.1	May 31, 2017	–	Aug 03, 2017
Spark 2.1.1-db4	Spark 2.1	Apr 25, 2017	Mar 31, 2018	Jul 30, 2018
Spark 2.0 (Auto Updating)	Spark 2.0	Jul 26, 2016	Jan 30, 2018	Apr 30, 2018
Spark 2.0.2-db4	Spark 2.0	Mar 24, 2017	Jan 30, 2018	Apr 30, 2018
Spark 1.6.3-db2	Spark 1.6	Mar 24, 2017	Jan 30, 2018	Jun 30, 2018

參考文獻

https://docs.databricks.com/spark/latest/spark-sql/language-manual/analyze-table.html
https://docs.databricks.com/spark/latest/spark-sql/language-manual/describe-table.html
https://docs.databricks.com/spark/latest/spark-sql/cbo.html
https://docs.databricks.com/release-notes/runtime/databricks-runtime-ver.html#versioning
https://blog.csdn.net/Albert201605/article/details/82313139
https://archive.ics.uci.edu/ml/datasets/Iris

本文由部落格一文多發平臺 OpenWrite 釋出！

相關推薦

使用SparkSql進行表的分析與統計

背景我們的資料探勘平臺對資料統計有比較迫切的需求，而Spark本身對資料統計已經做了一些工作，希望梳理一下Spark已經支援的資料統計功能，後期再進行擴充套件。準備資料在參考文獻6中下載鳶尾花資料，此處格式為iris.data格式，先將data字尾改為csv字尾（不影響使用，只是為了保證後續操作不需

Linux內核哈希表分析與應用

構造方法 init lis 個數無需表示字節 div 擴展目錄(?)[+] Linux內核哈希表分析與應用 Author:tiger-johnTime:2012-12-20mail:[email protected]/* */Blog

sparkStreaming結合sparkSql進行日誌分析

pass mysql foreach eat instance dataframe sel park array package testimport java.util.Propertiesimport org.apache.spark.SparkConfimport o

如何進行系統分析與設計

描述操作日誌說明方案技術設計包括滿足映射概述首先，系統是什麽？根據《系統架構》一書的定義，系統是由一組實體和這些實體之間的關系所構成的集合，其功能要大於這些實體各自的功能之和。對於我們的場景，系統可能是 App、Web 應用、服務、批處理程序等，也可

推薦書籍必有連結】利用python進行資料分析與推薦系統

資料分析是指用適當的統計分析方法對收集來的大量資料進行分析，提取有用資訊和形成結論而對資料加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支援過程。在實用中，資料分析可幫助人們作出判斷，以便採取適當行動由於有很多小夥伴們，在後臺諮詢有沒有資料分析相關的推薦，這裡推薦一本在京東上

利用R語言對RNA-Seq進行探索分析與差異表達分析

介紹本文參考 bioconductor 中RNA-Seq workflow: gene-level exploratory analysis and differential expression並對其根據需要進行了增減。試驗資料資料

NetAnalyzer筆記之十四 NetAnalyzer 6.0 的使用方法 -- 3.協議分析與統計

資料分析完成了資料的抓取，那麼接下來就是NetAnalyzer的第二個重點部分了，協議分析作為整個軟體的核心之一，在最新的NetAnalyzer中已經得到了巨大的提升。NetAnalyzer中協議分析分為單資料包分析，和聯合分析兩種分析方式，對於聯合分析會根據不同的協議特性進行形成不同的分析方案，目前支援傳

在有點陣圖索引的表上進行DML操作與enq: TX - row lock contention等待事件問題分析

在有點陣圖索引的表上進行DML操作與enq: TX - row lock contention等待事件問題分析前言模擬場景總結前言本文通過模擬實驗，來分析有點陣圖索引的表的DML操作對資料庫造成的

跳躍表的分析與實現

insert text 站點 avi 初始解析鏈接 solid water ----《大規模分布式存儲系統：原理解析與架構實戰》讀書筆記在了解了 Bitcask存儲模型後,又開始研究LSM樹存儲引擎。LSM在實現的過程中使用了一個非常有意思的數

數據的統計分析與描述

統計量 mea median 擬合 fit skew hist uci 出現的次數統計的任務　　-->　　由樣本推斷總體 1.頻數表與直方圖　　-->將數據取值劃分區間，統計每個區間出現的次數　　1）讀入數據並轉換為向量　　2）[N,X]=hist(Y,M

MySQL Innodb表導致死鎖日誌情況分析與歸納

進程設置歸納操作數 into time uid int 死鎖發現當備份表格的sql語句與刪除該表部分數據的sql語句同時運行時，mysql會檢測出死鎖，並打印出日誌案例描述在定時腳本運行過程中，發現當備份表格的sql語句與刪除該表部分數據的

《電商系統後臺統計報表模塊》需求分析與設計的課程小結

很好人員過程店鋪顯示效果情況 rod tle 報表 1）分工情況介紹，小組分工合作情況介紹邱慧堅-張順程選題，功能分析，建模 2）選題討論電商後臺的統計報表也是非常重要的一個功能模塊，一個功能齊全且具有良好顯示效果的報表功能可以幫助管理人員很好的分析當前商鋪的

統計分析與R軟件-chapter2-2

元素 5.6 2.2.3 zhang labs date() 賦值 line max 2.2 數字、字符與向量 2.2.1 向量 1.向量的賦值 x<-c(10.4,5.6,3.1,6.4,21.7) 2.向量的運算 x<-c(-1,0,2);y&l

六、Kafka 用戶日誌上報實時統計之分析與設計

包含示例結果 *** 進行初步 ons 用戶 1.4 一、項目整體概述簡述項目的背景背景：用戶行跡企業運營分析項目的目的通過對項目的分析，可以初步得到以下目的： •實時掌握用戶動態 &bul

運用Pycharm與Anaconda進行資料分析

先挖個坑= =具體配置以後再補充啊，先說說配置裡的坑到底是用conda維護包還是用pip維護包我之前一直在用conda維護包，感覺甚是好用，但是conda和pycharm的相容性並不很好，比如： 1、用conda安裝了一個python3.7環境，給pycharm用是沒問題的，但

資料基礎---《利用Python進行資料分析·第2版》第6章資料載入、儲存與檔案格式

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。訪問資料是使用本書所介紹的這些工具的第一步。我會著重介紹pandas的資料輸入與輸出，雖然別的庫中也有不少以此為目的的工具

資料基礎---《利用Python進行資料分析·第2版》第10章資料聚合與分組運算

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。對資料集進行分組並對各組應用一個函式（無論是聚合還是轉換），通常是資料分析工作中的重要環節。在將資料集載入、融合、準備好之

Oracle 編譯儲存過程報錯：表或檢視不存在問題分析與解決

今天遇到一個問題，自己寫了一個很簡單的儲存過程，編譯的時候，報錯: 表或檢視不存在；但是：表確實是存在，單獨拿出來查詢，一點問題也沒有。經過幾番查詢，找到了問題所在：查詢表的許可權不夠；解決方案：

Python資料分析與挖掘學習筆記（2）使用pandas進行資料匯入

一、匯入pandas模組： import pandas as pda 二、匯入CSV格式資料： #資料匯入 i=pda.read_csv("E:/hexun.csv") 可對匯入的資料進行統計以及按列排序： #統計 i.describe() #排序 i

使用R來進行缺失值分析與處理

一.分析從統計上說，缺失的資料可能會產生有偏估計，從而使樣本資料不能很好地代表總體，而顯示中絕大部分資料都包含缺失值，因此如何處理缺失值很重要。在R中，缺失值通常以NA標識，可以用is.na()和complete.case()可以判斷資料集是否完整。 is.na(