1. 程式人生 > >Spark SQL 筆記(17)—— 專案效能調優

Spark SQL 筆記(17)—— 專案效能調優

1 叢集優化

  • 儲存格式的選擇 ,https://www.infoq.cn/article/bigdata-store-choose
  • 壓縮格式的選擇,https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-compression-analysis/

2 程式碼優化

  • 選擇高效能運算元
  • 複用已有的資料

3 引數優化

  • 並行度:spark.sql.shuffle.partitions
  • 分割槽欄位型別的推測:spark.sql.sources.partitionColumnTypeInference.enabled