Spark SQL優化流程（解決叢集OOM問題）

阿新 • • 發佈：2018-11-30

根據七張基礎業務表，生成大寬表

tt_sales_order		1826 7673  	大 ord
tt_deposit_order	56 0368  	小 dep
tt_vehicle_action	236 5624 	中 vac
tt_pipeline_pool	1000 0000  	大 pol
tt_vehicle_resource	53 9059  	小 vre
tt_dealer_resource	1000 0000  	大 dre
tt_dealer_retail_order	1602 3564  	大 ret

直接join報錯OOM
分步驟操作：

OrderSales_ordtwoyears
OrderSales_ord_dep_one
OrderSales_ord_dep_two
OrderSales_ord_vac_dep
OrderSales_pol_vre
OrderSales_dre_ret

第一步：where ord
篩選兩年內資料，並mark_for_delete = ‘0’
第二步：ord left outer join dep
經研究發生資料傾斜，主要原因是BRAND_ID欄位只有100和200兩個狀態
(先處理 BRAND_ID = 100)
第三步：ord left outer join dep
經研究發生資料傾斜，主要原因是BRAND_ID欄位只有100和200兩個狀態
(再處理 BRAND_ID = 200)
第四步：ord_dep left outer join vac
第五步：ord_dep_vac left outer join pol_vre
第六步：ord_dep_vac_pol_vre left outer join dre_ret

問題一：某個欄位有/n導致與hive換行符衝突

regexp_replace(dep.cust_name, '\n|\t|\r', '')

問題二：join不上的資料顯示為NULL

採用parquet儲存格式，把NULL自動轉換成空字元

問題三：業務邏輯不熟

Spark SQL優化流程（解決叢集OOM問題）

Spark SQL優化流程（解決叢集OOM問題）

Spark修煉之道（高階篇）——Spark原始碼閱讀：第十二節 Spark SQL 處理流程分析

Spark修煉之道（進階篇）——Spark入門到精通：第九節 Spark SQL執行流程解析

Spark效能優化之道——解決Spark資料傾斜（Data Skew）的N種姿勢

Spark SQL原始碼剖析（一）SQL解析框架Catalyst流程概述

EXPLAIN sql優化方法（2） Using temporary ; Using filesort

Spark SQL筆記整理（三）：加載保存功能與Spark SQL函數

Spark SQL筆記整理（二）：DataFrame編程模型與操作案例

spark sql parquet資料來源（推薦）

SQL優化建議（mysql）

SQL安裝（解決字符集問題）

Spark修煉之道（進階篇）——Spark入門到精通：第一節 Spark 1.5.0叢集搭建

Spark修煉之道（進階篇）——Spark入門到精通：第十節 Spark SQL案例實戰（一）

Spark修煉之道（高階篇）——Spark原始碼閱讀：第十三節 Spark SQL之SQLContext（一)

Spark修煉之道（進階篇）——Spark入門到精通：第十三節 Spark Streaming—— Spark SQL、DataFrame與Spark Streaming

Spark修煉之道（進階篇）——Spark入門到精通：第十五節 Kafka 0.8.2.1 叢集搭建

MYSQL --SQL優化流程

sql優化之（DMV）

基於Oracle的SQL優化--學習（一）

剖析Picasso載入壓縮本地圖片流程（解決Android 5.0部分機型無法載入本地圖片的問題）

Spark SQL優化流程（解決叢集OOM問題）

相關推薦