1. 程式人生 > >大資料CDH之Impala_10_02

大資料CDH之Impala_10_02

要點:
1、SQL優化,使用之前呼叫執行計劃
2、選擇合適的檔案格式進行儲存
3、避免產生很多小檔案(如果有其他程式產生的小檔案,可以使用中間表)
4、使用合適的分割槽技術,根據分割槽粒度測算
5、使用compute stats進行表資訊蒐集
6、網路io的優化:
a.避免把整個資料傳送到客戶端
b.儘可能的做條件過濾
c.使用limit字句
d.輸出檔案時,避免使用美化輸出
7、使用profile輸出底層資訊計劃,在做相應環境優化