sparksql優化1（小表大表關聯優化 & union替換or）

阿新 • • 發佈：2019-02-13

----原語句（執行18min）

INSERT into TABLE schema.dstable
SELECT bb.ip FROM
(SELECT ip, sum(click) click_num, round(sum(click)/sum(imp),4) user_click_rate FROM schema.srctable1
WHERE date = '20171020' AND ip IS NOT NULL AND imp>0 GROUP BY ip) bb
LEFT OUTER JOIN (SELECT round(sum(click)/sum(imp),4) avg_click_rate FROM schema.srctable1 WHERE date = '20171020') aa
LEFT OUTER JOIN schema.dstable cc on cc.ip = bb.ip
WHERE cc.ip is null AND
(bb.user_click_rate > aa.avg_click_rate * 3 AND click_num > 500) OR (click_num > 1000)

分析：
1、aa表存放的就是一個指標資料,1條記錄,列為小表
2、bb表存放的是按ip聚合的明細資料,記錄很多,列為大表
3、cc表用來過濾ip,數量也很小,列為過濾表,作用很小。
檢視執行計劃,發現bb與aa進行left outer join時，引發了shuffle過程,造成大量的磁碟及網路IO,影響效能。

優化方案1:調整大小表位置,將小表放在左邊後，提升至29s (該方案一直不太明白為啥會提升，執行計劃裡顯示的也就是大小表位置調換下而已，跟之前的沒其他區別)
優化方案2: 將 or 改成 union,提升至35s(各種調整,一直懷疑跟or有關係,後面調整成union其他不變,果真效率不一樣;但方案1只是調整了下大小表順序,並未調整其他,其效率同樣提升很大;不太明白sparksql內部到底走了什麼優化機制,後面繼續研究);

優化方案3：採用cache+broadcast方式,提升至20s（該方案將小表快取至記憶體，進行map側關聯）

----方案2:or 改成 union（執行35s）

INSERT into TABLE schema.dstable
select aa.ip
from
(
SELECT bb.ip ip FROM
(SELECT ip, sum(click) click_num, round(sum(click)/sum(imp),4) user_click_rate FROM schema.srctable1 WHERE date = '20171020' AND ip IS NOT NULL AND imp>0 GROUP BY ip) bb
LEFT OUTER JOIN(SELECT round(sum(click)/sum(imp),4) avg_click_rate FROM schema.srctable1 WHERE date = '20171020') aa
WHERE
(bb.user_click_rate > aa.avg_click_rate * 3 AND click_num > 20)
union
SELECT bb.ip ip FROM
(SELECT ip, sum(click) click_num, round(sum(click)/sum(imp),4) user_click_rate FROM schema.srctable1 WHERE date = '20171020' AND ip IS NOT NULL AND imp>0 GROUP BY ip) bb
LEFT OUTER JOIN (SELECT round(sum(click)/sum(imp),4) avg_click_rate FROM schema.srctable1 WHERE date = '20171020') aa
WHERE click_num > 40
) aa
LEFT OUTER JOIN schema.dstable cc on aa.ip=cc.ip
where cc.ip is null

-----cache+broadcast方式（20s）
原理：使用broadcast將會把小表分發到每臺執行節點上，因此，關聯操作都在本地完成，基本就取消了shuffle的過程，執行效率大幅度提高。
cache table cta as SELECT round(sum(click)/sum(imp),4) avg_click_rate FROM schema.srctable1 WHERE date = '20171020';
INSERT into TABLE schema.dstable
SELECT bb.ip FROM
(SELECT ip, sum(click) click_num, round(sum(click)/sum(imp),4) user_click_rate FROM schema.srctable1
WHERE date = '20171020' AND ip IS NOT NULL AND imp>0 GROUP BY ip) bb
LEFT OUTER JOIN cta aa
LEFT OUTER JOIN schema.dstable cc on cc.ip = bb.ip
WHERE cc.ip is null AND
(bb.user_click_rate > aa.avg_click_rate * 3 AND click_num > 500) OR (click_num > 1000)

注意：
cache 表不一定會被廣播到Executor，執行map side join，還受另外一個引數：spark.sql.autoBroadcastJoinThreshold影響，該引數判斷是否將該表廣播；
spark.sql.autoBroadcastJoinThreshold引數預設值是10M，所以只有cache的表小於10M的才被廣播到Executor上去執行map side join。

sparksql優化1（小表大表關聯優化 & union替換or）

sparksql優化1（小表大表關聯優化 & union替換or）

MySQL 對於千萬級的大表要怎麼優化？（讀寫分離、水平拆分、垂直拆分）

spark sql優化：小表大表關聯優化 & union替換or & broadcast join

優化案例4----錯誤的大表走HASH+並行----->正確的走Nested loop

pt-online-schema-change工具使用教程（線上修改大表結構）

大資料技術體系1（清華：大資料技術體系）

Matlab使用新發現1（小技巧：shell 命令、工程工作目錄設定相關）

人臉識別技術探討：1:1,1：小N/大N，大姿態識別，活體識別

2017年11月12日--1（ES的數據類型-應用數據）

Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

在北京開發三年月薪16k，如何在第四年要到30k以上（文末大福利送書！！！）

python3繪圖示例6-1（基於matplotlib，繪圖流程介紹及設定等）

淺析微信支付：微信支付簡單介紹（小程式、公眾號、App、H5）

關於移植MT7601Uusb無線網絡卡（小度wifi，360隨身WIFI 2代）的後續

九.ARM裸機學習之串列埠通訊詳解1（串列埠通訊介面及原理框圖詳解）

win10個人設定優化總結（有不同見解的請給我留言討論）（有圖）

WEB前端學習 Day 1（DIV＋盒子模型＋CSS文字＋例項）

(優秀漢諾塔演算法)對漢諾塔經典遞迴問題的理解與講解（部分引用大神程式碼，附連結。）

sqli-labs less 1 （基於錯誤的GET單引號字元型注入）

mybatis使用foreach批次插入，解決sequence只查詢一次的問題（在此，我只看union all 部分）

sparksql優化1（小表大表關聯優化 & union替換or）

相關推薦