1. 程式人生 > >快資料與大資料的結合(VoltDB + Hadoop)

快資料與大資料的結合(VoltDB + Hadoop)

VoltDB提供了實時攝取資料與分析的能力(Fast Data)Hadoop作為大資料分析的平臺(Big Data)。

兩個處理系統的結合使用是即使Fast Data與Big Data的結合,也是聯機事務處理系統(OLTP)和聯機分析處理系統OLAP兩種不同應用的結合。

現總結如下表:

System(系統)

Data(資料)

處理型別

VoltDB

Fast Data (快資料)

OLTP (聯合事務處理系統)

Hadoop

Big Data (大資料)

OLAP (聯合分析處理系統)

以下部分文字來自Google的翻譯:(https://voltdb.com/products/hadoop

Hadoop的資料管道與VoltDB如下所示:(改圖來自: https://voltdb.com/sites/default/files/hadoop_2.png)

VoltDB提供了處理的資料通過一個內建的,事務性特徵提取高速出口的支援。VoltDB出口飼料處理過的資料HDFS / Hadoop的。應用程式開發人員可以通過在模式作為來源為出口指定表的自動匯出過程。在執行時,寫入指定的表中的任何資料被髮送到一個出口聯結器,其工作是將這些元組的出口目標安全和儘可能低的延遲。VoltDB提供聯結器,用於出口的檔案(CSV);通過WebHDFS到Hadoop的;通過資料序列化和交換服務,如Avro的;

並通過JDBC出口到其他關係型資料庫。欲瞭解更多關於卡夫卡聯結器VoltDB, 請點選這裡 。

VoltDB,HTTP聯結器和WebHDFS

VoltDB的聯結器序列化接收從匯出表資料連線到Hadoop,,並通過HTTP請求WebHDFS其寫出到Hadoop的。

該VoltDB HTTP聯結器是通用的匯出功能,可以從簡單的通訊服務出口到任意數量的目的地,以更復雜的REST API。 這些屬性共同創造一個一致的匯出過程。

該HTTP聯結器包含優化通過WebHDFS協議,支援資料匯出到Hadoop的。 開發人員可以使用WebHDFS時,兩種格式的匯出資料之間進行選擇:逗號分隔值(CSV)和Apache Avro的格式。

 預設情況下,資料被寫入作為CSV資料; 但是,開發人員可以選擇通過設定type屬性設定輸出格式Avro的。 阿夫羅是一個數據序列化系統,該系統包括由Hadoop的實用程式,如豬和蜂房本身中使用的二進位制格式。 因為它是一個二進位制格式,阿夫羅資料佔用更少的網路頻寬比基於文字的格式,例如CSV格式。

VoltDB用Hadoop為開發人員提供一個閉環系統,提供完整的可見性組織的資料,豐富與歷史分析事件資料的巨大的輸入流,以支援業務決策。 

VoltDB提供了一個廣泛的大資料生態系統整合,認證,行業合作伙伴和聯結器,以實現高速的資料匯出到基於Hadoop的資料倉庫和長期分析儲存,如HP Vertica的和IBM的Netezza。

VoltDB大資料整合使開發人員能夠利用速度和進出口資料管道的週期性的優勢。

VoltDB被認證的合作伙伴:

Hortonworks,     Cloudera,          MapR