1. 程式人生 > >Hive SQL 的 DISTINCT 和 GROUP BY 的效能對比

Hive SQL 的 DISTINCT 和 GROUP BY 的效能對比

    Hive SQL 的 DISTINCT 和 GROUP BY 都可用於資料去重,此文不講解 DISTINCT 和 GROUP BY 的基本用法,重點分析 DISTINCT 和 GROUP BY 用於資料去重時的效能對比。
    1)只用於去重,不進行匯聚
    結論:效能基本相同。
    原因:DISTINCT 和 GROUP BY 的執行機理是相同的,即是MR執行過程。
    2)去重並且進行匯聚
    結論:GROUP BY 效能比 DISTINCT 高
    原因:GROUP BY