1. 程式人生 > >hive 的 left semi join 講解

hive 的 left semi join 講解

介紹

LEFT SEMI JOIN (左半連線)是 IN/EXISTS 子查詢的一種更高效的實現

Hive 當前沒有實現 IN/EXISTS 子查詢,所以可以用 LEFT SEMI JOIN 重寫你的子查詢語句

示例


可以改寫為


特點

1、left semi join 的限制是, JOIN 子句中右邊的表只能在 ON 子句中設定過濾條件,在 WHERE 子句、SELECT 子句或其他地方過濾都不行。

2、left semi join 是隻傳遞表的 join key 給 map 階段,因此left semi join 中最後 select 的結果只許出現左表。

3、因為 left semi join 是 in(keySet) 的關係,遇到右表重複記錄,左表會跳過,而 join 則會一直遍歷。這就導致右表有重複值得情況下 left semi join 只產生一條,join 會產生多條,也會導致 left semi join 的效能更高。