1. 程式人生 > >GreenPlum 與hadoop什麽關系?(轉)

GreenPlum 與hadoop什麽關系?(轉)

批量 zookeep pre 什麽 hbase mapreduce 它的 生成 ans

沒關系.

gp 可以處理大量數據, hadoop 可以處理海量.
gp 只能處理湖量,或者河量. 無法處理海量.

作者:SallyLeo
鏈接:https://www.zhihu.com/question/36935504/answer/109882162
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請註明出處。

GreenPlum的組件分成三個部分MASTER/SEGMENT以及MASTER與SEGMENT之間的高效互聯技術GNET。其中MASTER和SEGMENT本身就是獨立的數據庫SERVER。不同之處在於,MASTER只負責應用的連接,生成並拆分執行計劃,把執行計劃分配給SEGMENT節點,以及返回最終結果給應用,它只存儲一些數據庫的元數據,不負責運算,因此不會成為系統性能的瓶頸。這也是GREENPLUM與傳統MPP架構數據庫的一個重要區別。 SEGMENT節點存儲用戶的業務數據,並根據得到執行計劃,負責處理業務數據。也就是用戶關系表的數據會打散分布到每個SEGMENGT節點。當進行數據訪問時,首先所有SEGMENT並行處理與自己有關的數據,如果需要segment可以通過進行innterconnect進行彼此的數據交互。 segment節點越多,數據就會打的越散,處理速度就越快。因此與SHARE ALL數據庫集群不同,通過增加SEGMENT節點服務器的數量,GREENPLUM的性能會成線性增長。

GREENPLUM是典型關系型數據庫產品,是面向查詢的關系型數據庫,它的

特點主要就是查詢速度快,數據裝載速度快,批量DML處理快。而且性能

可以隨著硬件的添加呈線性增加,擁有非常良好的可擴展性。因此,它主

要適用於面向分析的應用。GreenPlum基於 Apache MADLib 的高級機器

學習功能,支持快速復雜查詢分析,滿足各種BI用戶需求。

所以,greenplum是分布式數據庫系統。


apache hadoop是大規模分布式計算的框架,涉及分布式存儲HDFS,分布式並行計算框架MapReduce,Hadoop Yarn 作業調度和集群資源管理框架,hadoop架構相關的框架HBase,Hive,Pig,ZooKeeper,還有火到爆的spark。
可以看出hadoop更像是一種分布式計算的框架,會有越來越多的應用框架使用hadoop框架完成大數據分析,你甚至可以把Greenplum部署到hadoop上,完成大數據的分析處理。

GreenPlum 與hadoop什麽關系?(轉)