1. 程式人生 > >KYLIN基於CDH入門實戰(1)之kylin簡介

KYLIN基於CDH入門實戰(1)之kylin簡介

官網地址:http://kylin.apache.org/cn/

kylin詳細介紹檢視官網

本文僅作學習筆記。

1. 由來

在現在的大資料時代,Hadoop已經成為大資料事實上的標準規範,一大批工具陸陸續續圍繞Hadoop平臺來構建,用來解決不同場景下的需求。比如Hive是基於Hadoop的一個用來做企業資料倉庫的工具,可以將儲存在HDFS分散式檔案系統上的資料檔案對映為一張資料庫表,並提供SQL查詢功能,Hive執行引擎可以將SQL轉換為MapReduce任務來進行執行,非常適合資料倉庫的資料分析。再比如HBase是基於Hadoop,實現高可用性,高效能,面向列,可伸縮的分散式儲存系統,Hadoop架構中的HDFS為HBase提供了高可靠性的底層儲存支援。

但是缺少一個基於Hadoop的分散式分析引擎,雖然目前存在業務分析工具,如Tableau等,但是他們往往存在很大的侷限,比如難以水平擴充套件、無法處理超大規模資料,同時也缺少Hadoop的支援。Apache Kylin(中文:麒麟)的出現,能夠基於Hadoop很好地解決上面的問題。ApacheKylin是一個開源的分散式儲存引擎,最初由eBay開發貢獻至開源社群。它提供Hadoop之上的SQL查詢介面及多維分析(OLAP)能力以支援大規模資料,能夠處理TB乃至PB級別的分析任務,能夠在亞秒級查詢巨大的Hive表,並支援高併發。

2. 應用場景

假如你的資料存在於Hadoop的HDFS分散式檔案系統中,並且你使用Hive來基於HDFS構建資料倉庫系統,並進行資料分析,但是資料量巨大,比如TB級別。

同時你的Hadoop平臺也使用HBase來進行資料儲存和利用HBase的行鍵實現資料的快速查詢等應用

你的Hadoop平臺的資料量逐日累增

對於資料分析的維度大概10個左右

如果你的應用類似上面,那麼非常適合採用Apache Kylin來做大資料量的多維資料分析。ApacheKylin的核心思想是利用空間換時間,將計算好的多維資料結果存入HBase,實現資料的快速查詢。同時由於Apache Kylin在查詢方面制定了多種靈活的策略,進一步提高空間的利用率,使得這樣的平衡策略在應用中值得采用。

3.核心思想

Kylin通過預計算所有合理的維度組合下各個指標的值並把計算結果儲存到HBASE中的方式,大大提高分散式多維分析的查詢效率。Kylin接收sql查詢語句作為輸入,以查詢結果作為輸出。通過預計算的方式,將在hive中可能需要幾分鐘的查詢響應時間下降到毫秒級。