1. 程式人生 > >解密:Apache Hive 2.1效能提升26倍!

解密:Apache Hive 2.1效能提升26倍!

 日前,ApacheHive2.1極速登場!攜著記憶體計算,其效能提高了約26倍。Hive計算效能得到如此大的提升,是得益於什麼呢?Hive能夠影響目前SQL On Hadoop的競爭局面的原因又是什麼呢?大聖眾包威客平臺為你揭祕!

  大資料時代,處理資料資訊的速度越快,相容性越高,效能越優秀,產品的競爭力才越大。而讓ApacheHive2.1版本擁有以上特性的幕後功臣,分別為以下6個:

  1.LLAP的引入

  其實,早在ApacheHive2.0版本時,其已引入了LLAP(LiveLongAndProcess),而2.1版本則對其進行了極大的優化,因此2.1版本相比於ApacheHive1版本,其效能提升了約26倍。

  如圖所示,相比於Hive1+Tez,Hive2.1+Tez+LLAP的效能提升了約26倍,測試結果如下圖所示:

  正是Hive2LLAP的引入,標誌著ApacheHive進入第三代記憶體計算時代。讓ApacheHive2.1效能提升的至關重要的優化祕密,在於LLAP。LLAP是下一代分散式計算架構,它能夠智慧地將資料快取到多臺機器記憶體中,並允許所有客戶端共享這些快取的資料,同時保留了彈性伸縮能力。為什麼它能擁有這些優勢?因為,LLAP引入了分散式持久化查詢服務,並結合了經優化的資料快取機制快速啟動查詢計算作業,同時,還避免了無需的磁碟IO操作。

  2.更魯邦的SQLACID支援

  3.2XETL效能的提升

  ApacheHive2.1引入了更智慧的CBO(CostBasedOptimizer),實現了更快的型別轉換,以及動態分割槽優化。

  4.儲存過程的支援

  通過開源專案HPL/SQL,讓ApacheHive2.1加大簡化了從EDW遷移到Hive的流程。而HPL/SQL的目的,是為實現ApacheHive、SparkSQL、Impala以及其他SQL-on-Hadoop,以及任何NoSQL和RDBMS增加儲存的過程。

  5.對文字格式資料增加向量化計算的支援

  6.新的診斷和監控工具的引入

  包括新的HiveServer2UI、LLAPUI和改進的TezUI,都是ApacheHive2.1引入的新的診斷和監控工具,這讓它效能更穩定。