Hive之執行計劃分析(explain)

阿新 • • 發佈：2018-11-11

Hive是通過把sql轉換成對應mapreduce程式，然後提交到Hadoop上執行，檢視具體的執行計劃可以通過執行explain sql知曉
一條sql會被轉化成由多個階段組成的步驟，每個步驟有執行順序和依賴關係，可以稱之為有向無環圖（DAG:Directed Acyclic Graph）
這些步驟可能包含：元資料的操作，檔案系統的操作，map/reduce計算等
語法格式：

EXPLAIN [EXTENDED|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION] query

explain輸出內容包括：
- 抽象語法樹
- 執行計劃不同階段的依賴關係
- 各個階段的描述
extended輸出更加詳細的資訊
denpendency輸出依賴的資料來源
authorization輸出執行sql授權資訊
locks 輸出鎖情況
vectorization相關
- Adds detail to the EXPLAIN output showing why Map and Reduce work is not vectorized.
- Syntax: EXPLAIN VECTORIZATION [ONLY] [SUMMARY|OPERATOR|EXPRESSION|DETAIL]
- ONLY option suppresses most non-vectorization elements.
- SUMMARY (default) shows vectorization information for the PLAN (is vectorization enabled) and a summary of Map and Reduce work.
- OPERATOR shows vectorization information for operators. E.g. Filter Vectorization. Includes all information of SUMMARY.
- EXPRESSION shows vectorization information for expressions. E.g. predicateExpression. Includes all information of SUMMARY and OPERATOR.
- DETAIL shows detail-level vectorization information. It includes all information of SUMMARY, OPERATOR, and EXPRESSION.
帶上FORMATTED 關鍵子，可以json格式輸出
sort order： +表示升序 -表示降序
大概瞭解一下相關的執行情況

# explain預設
0: jdbc:hive2://> explain select * from sort_test sort by id desc limit 10;
+--------------------------------------------------------------------------------------------------+--+
|                                             Explain                                              |
+--------------------------------------------------------------------------------------------------+--+
| STAGE DEPENDENCIES:                                                                              |
|   Stage-1 is a root stage                                                                        |
|   Stage-2 depends on stages: Stage-1                                                             |
|   Stage-0 depends on stages: Stage-2                                                             |
|                                                                                                  |
| STAGE PLANS:                                                                                     |
|   Stage: Stage-1                                                                                 |
|     Map Reduce                                                                                   |
|       Map Operator Tree:                                                                         |
|           TableScan                                                                              |
|             alias: sort_test                                                                     |
|             Statistics: Num rows: 8 Data size: 890 Basic stats: COMPLETE Column stats: NONE      |
|             Select Operator                                                                      |
|               expressions: id (type: int), name (type: string)                                   |
|               outputColumnNames: _col0, _col1                                                    |
|               Statistics: Num rows: 8 Data size: 890 Basic stats: COMPLETE Column stats: NONE    |
|               Reduce Output Operator                                                             |
|                 key expressions: _col0 (type: int)                                               |
|                 sort order: -                                                                    |
|                 Statistics: Num rows: 8 Data size: 890 Basic stats: COMPLETE Column stats: NONE  |
|                 value expressions: _col1 (type: string)                                          |
|       Reduce Operator Tree:                                                                      |
|         Select Operator                                                                          |
|           expressions: KEY.reducesinkkey0 (type: int), VALUE._col0 (type: string)                |
|           outputColumnNames: _col0, _col1                                                        |
|           Statistics: Num rows: 8 Data size: 890 Basic stats: COMPLETE Column stats: NONE        |
|           Limit                                                                                  |
|             Number of rows: 10                                                                   |
|             Statistics: Num rows: 8 Data size: 890 Basic stats: COMPLETE Column stats: NONE      |
|             File Output Operator                                                                 |
|               compressed: false                                                                  |
|               table:                                                                             |
|                   input format: org.apache.hadoop.mapred.SequenceFileInputFormat                 |
|                   output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat       |
|                   serde: org.apache.hadoop.hive.serde2.lazybinary.LazyBinarySerDe                |
|                                                                                                  |
|   Stage: Stage-2                                                                                 |
|     Map Reduce                                                                                   |
|       Map Operator Tree:                                                                         |
|           TableScan                                                                              |
|             Reduce Output Operator                                                               |
|               key expressions: _col0 (type: int)                                                 |
|               sort order: -                                                                      |
|               Statistics: Num rows: 8 Data size: 890 Basic stats: COMPLETE Column stats: NONE    |
|               value expressions: _col1 (type: string)                                            |
|       Reduce Operator Tree:                                                                      |
|         Select Operator                                                                          |
|           expressions: KEY.reducesinkkey0 (type: int), VALUE._col0 (type: string)                |
|           outputColumnNames: _col0, _col1                                                        |
|           Statistics: Num rows: 8 Data size: 890 Basic stats: COMPLETE Column stats: NONE        |
|           Limit                                                                                  |
|             Number of rows: 10                                                                   |
|             Statistics: Num rows: 8 Data size: 890 Basic stats: COMPLETE Column stats: NONE      |
|             File Output Operator                                                                 |
|               compressed: false                                                                  |
|               Statistics: Num rows: 8 Data size: 890 Basic stats: COMPLETE Column stats: NONE    |
|               table:                                                                             |
|                   input format: org.apache.hadoop.mapred.TextInputFormat                         |
|                   output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat      |
|                   serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe                      |
|                                                                                                  |
|   Stage: Stage-0                                                                                 |
|     Fetch Operator                                                                               |
|       limit: 10                                                                                  |
|       Processor Tree:                                                                            |
|         ListSink                                                                                 |
|                                                                                                  |
+--------------------------------------------------------------------------------------------------+--+

# authorization
0: jdbc:hive2://> explain formatted authorization  select * from sort_test sort by id desc limit 10;
+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+--+
|                                                                                                               Explain                                                                                                               |
+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+--+
| {"CURRENT_USER":"root","OPERATION":"SWITCHDATABASE","INPUTS":["[email protected]_test"],"OUTPUTS":["hdfs://master:9000/tmp/hive/root/fac1e10c-babb-4927-886e-411b3e9190fb/hive_2018-10-18_11-04-47_534_1155924552647075339-1/-mr-10000"]}  |
+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+--+

參考資料

【0】Hive wiki - LanguageManual Explain

【1】hive入門學習：explain執行計劃的理解

Hive之執行計劃分析(explain)

Hive是通過把sql轉換成對應mapreduce程式，然後提交到Hadoop上執行，檢視具體的執行計劃可以通過執行explain sql知曉一條sql會被轉化成由多個階段組成的步驟，每個步驟有執行順序和依賴關係，可以稱之為有向無環圖（DAG:Directed Acyclic Graph）這

mysql 執行計劃分析三看， explain,profiling,optimizer_trace

roc var you time field 表之間 origin 依賴 nod http://blog.csdn.net/xj626852095/article/details/52767963 step 1 使用explain 查看執行計劃， 5.6後可以加參數

MySQL SQL優化之執行計劃 explain

1.環境 OS: CentOS 6.5 x64 MySQL: 5.6 for Linux (x86_64) 2.優化第一步拿到一個慢SQL時，第一步就是看執行計劃並權衡是否可以加索引，就是這麼簡單，不要被高深莫測的人給矇住說什麼有更好的方

之mysql執行計劃分析學習記錄

extra列： 1.const row not found --雖然使用const訪問方式讀取了資料表，但若實際資料表中沒有1條符合條件的記錄，建議先向表中儲存適當的測試資料，再檢視執行計劃. 認 2.distinct--表示去重 3.full scan on null key ---出現在col1 in

MongoDB執行計劃分析詳解（1）

mongo smu pre als comm 計劃 -- {} direct 正文 queryPlanner queryPlanner是現版本explain的默認模式，queryPlanner模式下並不會去真正進行query語句查詢，而是針對query語句進行執行計劃分析並

SQL Server 性能調優之執行計劃（Execution Plan）調優

mod isp jsb see 環境指定 logical term alt SQL Server 存在三種 Join 策略：Hash Join，Merge Join，Nested Loop Join。 Hash Join：用來處理沒有排過序/沒有索引的數據，它在內存中把

Mysql SQL優化系列之——執行計劃連線方式淺釋

關係庫SQL調優中，雖然思路都是一樣的，具體方法和步驟也是大同小異，但細節卻不容忽視，尤其是執行計劃的具體細節的解讀中，各關係庫確實有區別，特別是mysql資料庫，與其他關係庫的差別更大些，下面，我們僅就SQL執行計劃中最常見的連線方式，做以下簡要介紹和說明。 system : a syst

Mysql Database 執行計劃： explain

id 顯示select語句的執行順序 (1) id相同時，執行順序由上至下 (2) 如果是子查詢，id的序號會遞增，id值越大優先順序越高，越先被執行 (3) id如果相同，可以認為是一組，從上往下順序執行；在所有組中，id值越大，優先順序越高，越先執行 select_ty

【MySQL】SQL執行計劃分析

https://blog.csdn.net/da_guo_li/article/details/79008016 執行計劃能告訴我們什麼？當我們的系統上線後資料庫的記錄不斷增加，之前寫的一些SQL語句或者一些ORM操作效率變得非常低。我們不得不考慮SQ

SQL執行計劃分析

執行計劃能告訴我們什麼？當我們的系統上線後資料庫的記錄不斷增加，之前寫的一些SQL語句或者一些ORM操作效率變得非常低。我們不得不考慮SQL優化，SQL優化大概是這樣一個流程：1.定位執行效率低的SQL語句（定位）,2.分析為什麼這段SQL執行的效率比較低（分析），3.最後根據第二步分析的結構採取優化措施

Glide原理之執行流程分析

Glide是一個優秀的圖片載入庫，它有如下優點： 1. Glide可以監聽Activity的生命週期管理，更加合理的管理圖片的載入和釋放。 2. 載入質量，Picasso預設採用的ARGB-8888, Glide預設採用的是RGB-565，記憶體佔用會減小一半。 3. Glide可

看懂Hive的執行計劃

關於Hive執行計劃簡述一般執行計劃有兩個部分： stage dependencies 各個stage之間的依賴性 stage plan 各個stage的執行計劃一個stage並不一定是一個MR，有可能是Fetch Operator，也有可能是Move Opera

MYSQL優化原理和執行計劃分析(一)

索引基礎效能下降SQL慢執行時間長等待時間長查詢資料過多 (能不能拆，條件過濾儘量少) 關聯了太多的表，太多join （join 原理。用 A 表的每一條資

MySQL執行計劃分析

part 但是停止 pri 並不是包含嵌套查詢方式字節原文:MySQL執行計劃分析一. 執行計劃能告訴我們什麽？ SQL如何使用索引聯接查詢的執行順序查詢掃描的數據函數二. 執行計劃中的內容 SQL執行計劃的輸出可能為多行，每一行代表

Oracle 常見的執行計劃步驟(explain結果的Description資料參考)

在PL/SQL中執行explain plain for select ... 檢視Description 資料參考： Oracle 常見的執行計劃步驟這裡我們介紹一些常見的執行計劃中的步驟及演算法。 1、表訪問路徑（1）TABLE ACCESS FU

Oracle 執行計劃（Explain Plan）說明

如果要分析某條SQL的效能問題，通常我們要先看SQL的執行計劃，看看SQL的每一步執行是否存在問題。如果一條SQL平時執行的好好的，卻有一天突然效能很差，如果排除了系統資源和阻塞的原因，那麼基本可以斷定是執行計劃出了問題。看懂執行計劃也就成了SQL優化的

mybatis原始碼學習之執行過程分析（2）——config.xml配置檔案和mapper.xml對映檔案解析過程

在上一篇中跟蹤了SqlSessionFactory及SqlSession的建立過程。這一篇，主要跟蹤Mapper介面和XML檔案對映及獲取。 1.xml檔案的解析 1.1Mybatis-config.xml的解析在SqlSessionFactor

點評Oracle 11g新特性之執行計劃管理

摘自：http://doc.chinaunix.net/oracle/200707/156806.shtml 【內容導航】第1頁：執行計劃管理的工作原理第2頁：執行計劃管理的測試摘要：本文描述了11g的新特性之一：執行計劃管理，介紹了引入該新特性的原因，以

oracle 執行計劃（explain plan）說明

基於oracle的應用系統很多效能問題，是由應用系統sql效能低劣引起的，所以，sql的效能優化很重要，分析與優化sql的效能我們一般通過檢視該sql的執行計劃，本文就如何看懂執行計劃，以及如何通過分析執行計劃對sql進行優化做相應說明。一、什麼是執行計劃

Linux系統之執行狀態分析及問題排查思路

〇、一件事兒以下分析是站在Java工程師的角度來分析的。一、CPU分析分析CPU的繁忙程度，兩個指標：系統負載和CPU利用率 1、系統負載分析系統負載：在Linux系統中表示，一段時間內正在執行程序數和CPU執行佇列中就緒等待程序數，以及非常重要的休眠但不可中斷的程序數的平均值（具體load值的計算

Hive之執行計劃分析(explain)

參考資料

相關推薦