1. 程式人生 > >大資料系統-系統優化與演算法優化方向

大資料系統-系統優化與演算法優化方向

    大資料系統面臨的問題一般是有以下幾個問題造成的:

  1.     資料分佈變化產生新的挑戰。
  2.     計算環境為分散式叢集。

    針對系統執行過程中的作業,參考開源系統與研究論文可以看到大家比較關注的一些優化方向:

1. 儲存層:

列儲存和檔案排布:Major Technical Advancements in Apache Hive

壓縮:Choosing a Data Compression Format (Cloudera)

Column Order:

2. 作業排程層:

考慮Locality,Straggler,Capacity,Fair等問題演化出的不同作業排程演算法。

Delay Scheduling: A Simple Technique for Achieving Locality and Fairness in Cluster Scheduling

3. 執行過程

借鑑編譯優化和資料庫查詢優化技術進行作業優化。

Apache Spark Join guidelines and Performance tuning

4. 開掘硬體效能

Project Tungsten: Bringing Apache Spark Closer to Bare Metal