MPP架構海量資料分析倉庫——Greenplum介紹

阿新 • • 發佈：2018-11-10

一、Greenplum背景

時間回到2002年，網際網路行業經過近10年的發展，資料量正處於快速增長期：

　　1、傳統的主機計算模式在海量資料面前，除了造價昂貴外，在CPU計算和IO吞吐上不能滿足海量資料的計算需求；

　　2、傳統資料庫大多基於SMP架，縱向擴容(scale-up)模式遇到了瓶頸。

　　3、分散式儲存和分散式計算理論剛剛被提出來，Google的兩篇著名論文關於GFS分散式檔案系統和關於MapReduce 平行計算框架的理論引起業界的關注，

　　分散式計算模式在網際網路行業特別是收索引擎和分詞檢索等方面獲得了巨大成功。

Greenplum是為解決以上問題產生的可以支援scale-out橫向擴充套件的基於資料庫的MPP架構的分散式資料儲存和平行計算的工具。

二、Greenplum架構

2.1 Greenplum MPP架構

在介紹Greenplum架構前，先來了解下背景裡出現的MPP架構。所謂的MPP架構即Massively Parallel Processing大規模並行程序。

其基本特徵是由多個SMP伺服器通過節點網際網路絡連線而成，每個節點只訪問自己的本地資源(記憶體、儲存等)，是一種完全無共享(Share Nothing)結構，

因而橫向擴充套件能力好，效能隨著硬體增加呈線性提升，理論上其擴充套件無限制。

可以看到，每個segment的硬體內容是獨立的，在上層通過網路進行通訊，Greenplum架構是典型的MPP架構。

Master節點儲存著global system catalog，並提供外部訪問入口。業務資料都根據分佈規則存放在Segment節點上。

2.2 Master高可用之 Master&Standby

由於Greenplum所有的並行任務都是在Segment資料節點上完成後，Master只負責生成和優化查詢計劃、派發任務、協調資料節點進行平行計算。

Master節點並不會因為因為資料壓力過大導致資源緊張成為瓶頸。

2.3 Segment高可用之映象策略

在上一期安裝初始化的時候有講到ssh協議不通會導致初始化互相copy primary檔案到別的映象主機當做mirror檔案失效報錯，現在詳細介紹下映象策略。

Greenplum有兩種映象策略，分別為group(預設策略)和spread模式。其中group模式每個Host的映象檔案都放在下一個Host上，所有計算節點形成一個環。如下圖

而spread模式是將每個Host的映象依次分散到後續Host上，如下圖

兩者的差異在於可宕機數量以及宕機後仍處在正常狀態伺服器的壓力。

以上兩圖為例，group模式下segment host1掛掉後，叢集會使用segment host2映象例項當做segment host1主例項的備選，使叢集繼續使用。

即使在segment host1掛掉後，segment host3掛掉，segment host2和segment host4的主例項和映象例項扔能支撐整個叢集正常使用；

而在spread模式下segment host1掛掉後，其他三臺任意出現故障導致服務不可用時，整個叢集會有部分節點無法訪問導致異常(例如

segment host2和segment host3掛掉綠色不可用，segment host4掛掉藍色不可用)，spread對比group的優點在於，當只出現一臺機器如segment host1掛掉時，

spread能將segment host1的壓力平分到segment host2和segment host3上，而group模式會將壓力全都轉移到segment host2上。

映象模式可自動實現故障轉移功能；如何選擇映象模式，需要根據實際情況來選擇。

gpinitsystem_config初始化檔案
################################################
#### OPTIONAL MIRROR PARAMETERS
################################################

#### Base number by which mirror segment port numbers 
#### are calculated.
MIRROR_PORT_BASE=53000

#### Base number by which primary file replication port 
#### numbers are calculated.
REPLICATION_PORT_BASE=43000

#### Base number by which mirror file replication port 
#### numbers are calculated. 
MIRROR_REPLICATION_PORT_BASE=54000

#### File system location(s) where mirror segment data directories 
#### will be created. The number of mirror locations must equal the
#### number of primary locations as specified in the 
#### DATA_DIRECTORY parameter.
#declare -a MIRROR_DATA_DIRECTORY=(/data1/mirror /data1/mirror /data1/mirror /data2/mirror /data2/mirror /data2/mirror)
declare -a MIRROR_DATA_DIRECTORY=(/home/gpadmin/gpdata/gpdatam1 /home/gpadmin/gpdata/gpdatam2)

參考文件：

1、Greenplum架構 https://gpdb.docs.pivotal.io/5100/admin_guide/intro/arch_overview.html

2、映象模式 https://gpdb.docs.pivotal.io/570/admin_guide/highavail/topics/g-overview-of-segment-mirroring.html

3、Master-Slave https://gpdb.docs.pivotal.io/5100/admin_guide/highavail/topics/g-overview-of-master-mirroring.html

MPP架構海量資料分析倉庫——Greenplum介紹

一、Greenplum背景時間回到2002年，網際網路行業經過近10年的發展，資料量正處於快速增長期：　　1、傳統的主機計算模式在海量資料面前，除了造價昂貴外，在CPU計算和IO吞吐上不能滿足海量資料的計算需求；　　2、傳統資料庫大多基於SMP架，縱向擴容(scale-up)模式遇到了瓶頸。　

MPP架構海量數據分析倉庫——Greenplum介紹

性能即使 inf 發展系統 -s 安裝本地 14. 一、Greenplum背景時間回到2002年，互聯網行業經過近10年的發展，數據量正處於快速增長期：　　1、傳統的主機計算模式在海量數據面前，除了造價昂貴外，在CPU計算和IO吞吐上不能滿足海量數據的計算需求；

從0到1搭建基於Kafka、Flume和Hive的海量資料分析系統(一)資料收集應用

大資料時代，一大技術特徵是對海量資料採集、儲存和分析的多元件解決方案。而其中對來自於感測器、APP的SDK和各類網際網路應用的原生日誌資料的採集儲存則是基本中的基本。本系列文章將從0到1，概述一下搭建基於Kafka、Flume、Zookeeper、HDFS、Hive的海量資料分析系統的框架、核心應用和關鍵模組

高效能運算機的Numa、SMP、MPP架構技術特點分析

　　SMP伺服器的主要特徵是共享，系統中所有資源(CPU、記憶體、I/O等)都是共享的。也正是由於這種特徵，導致了SMP伺服器的主要問題，那就是它的擴充套件能力非常有限。對於SMP伺服器而言，每一個共享的環節都可能造成SMP伺服器擴充套件時的瓶頸，而最受限制的則是記憶體。由於每個CPU必須通過相同的記憶體匯流

python資料探勘資料分析pandas的介紹及簡單例子

pandas是python下最有力的資料探勘和資料分析的工具之一，支援類似於SQL的資料庫的增、刪、查、改，並且帶有豐富的資料處理函式，支援時間序列的分析功能，支援靈活處理缺失資料。pandas基本的資料結構是Series和DataFrame，series就是序列，類似於一

5-大資料分析之 druid 介紹

Druid (大資料實時統計分析資料儲存) 摘要 Druid是一個為在大資料集之上做實時統計分析而設計的開源資料儲存。這個系統集合了一個面向列儲存的層，一個分散式、shared-nothing的架構，和一個高階的索引結構，來達成在秒級以內對十億行級別

開源大資料引擎：Greenplum 資料庫架構分析

Greenplum 資料庫是最先進的分散式開源資料庫技術，主要用來處理大規模的資料分析任務，包括資料倉庫、商務智慧（OLAP）和資料探勘等。自2015年10月正式開源以來，受到國內外業內人士的廣泛關注。本文就社群關心的Greenplum資料庫技術架構進行介紹。一

Python資料分析與挖掘第一篇—基本介紹及環境搭建

一，資料分析與挖掘簡介　　所謂資料分析，是對已有的資料進行分析，提取一些有價值的資訊，比如平均數，標準差等。而資料探勘，是對大量的資訊進行分析和挖掘，得到一些未知的，有價值的資訊。如今日頭條類的新聞推送就是通過對使用者的資訊進行分析和挖掘，從而達到精準推送使用者感興趣的新聞。資料分析和資料探勘往往是密不可

歌單大資料分析基礎，採集海量網易雲音樂歌單資料實踐

本文主要介紹“網易雲音樂歌單採集爬蟲”（以下簡稱“網易歌單爬蟲”）的使用教程及注意事項。網易雲音樂使用者眾多，服務優質，其推出的歌單服務，更是深得使用者喜愛，裡面包含了各色歌曲，那該如何採集這眾多歌單資訊呢？接下來，教你如何使用“網易歌單爬蟲”在雲端採集和匯出歌單資訊：進入

【網站點選流資料分析】05-資料倉庫設計

採用星型模型 1、事實表原始資料表:t_origin_weblog valid string 是否有效

阿里如何實現海量資料實時分析？

阿里妹導讀：隨著資料量的快速增長，越來越多的企業迎來業務資料化時代，資料成為了最重要的生產資料和業務升級依據。本文由阿里AnalyticDB團隊出品，近萬字長文，首次深度解讀阿里在海量資料實時分析領域的多項核心技術。數字經濟時代已經來臨，希望能和業界同行共同探索，加速行

大資料分析的下一代架構--IOTA架構

版權宣告：*************本文為博主原創文章，轉載請註明出處************* https://blog.csdn.net/oDaiLiDong/article/details/80035658 IOTA是什麼？你是否為下一代大資料架構做好準備？

從Hadoop框架與MapReduce模式中談海量資料處理含淘寶技術架構

從hadoop框架與MapReduce模式中談海量資料處理前言幾周前，當我最初聽到，以致後來初次接觸Hadoop與MapReduce這兩個東西，我便稍顯興奮，覺得它們很是神祕，而神祕的東西常能勾起我的興趣，在看過介紹它們的文章或論文之後，覺得Ha

SQL排查- 慢查詢日誌與分析資料庫海量資料

慢查詢日誌用於記錄MYsql種響應時間超過閾值開啟慢日誌 show variables ‘%slow_query-log%’ 臨時開啟 set global slow_query_log = 1 關

創業公司做資料分析（六）資料倉庫的建設

作為系列文章的第六篇，本文將重點探討資料處理層中資料倉庫的建設。在第二篇運營資料系統一文，有提到早期的資料服務中存在不少問題，雖然在做運營Dashboard系統時，對後臺資料服務進行了梳理，構建了資料處理的底層公共庫等，但是仍然存在一些問題：中間資料流

超越Hadoop的大資料分析之第一章介紹：為什麼超越Hadoop Map-Reduce

本文翻譯自《BIG DATA ANALYTICS BEYOND HADOOP》譯者：吳京潤譯者注：本文是本書第一章的開頭，第一章其它部分由其他人翻譯。你可能是一個視訊服務提供商，而你想基於網路環境動態的選擇合適的內容分發網路來優化終端使用者的體驗。或者你是一個政府監管機構，需要為網際網路頁

資料分析需要的工具介紹（二）

我們在上一篇文章中給大家介紹了資料分析軟體中的Excel和SAS軟體，但是這些軟體還是不夠的，我們還需要學習很多的工具，在這篇文章中我們會為大家介紹一下資料分析工具中的其他工具。希望這篇文章能夠給大家帶來幫助。首先我們給大家說一下R軟體，R是一套完整的資料處理、計算和製圖軟體系統。r語言的主要優點有資

資料分析需要的工具介紹（一）

資料分析有很多的知識，也有很多的工具。一般來說，一個優秀的資料分析師都是有很多的知識儲備，並且還能夠熟練的使用資料分析工具。那麼資料分析需要的工具都有哪些呢？一般來說SAS、R、SPSS、python、excel。有下面就由小編為大家介紹一下這些工具。首先給大家說一下Excel。

資料分析的資料架構知識詳解（二）

我們在前面的文章中提到了BI系統，從文章中我們不難發現BI系統處理資料的時候都是很有效的，但是當資料量過大的時候，我們系統的效能就會弱了很多。當然了，如果我們處理的資料在TB或者TB以上的資料量的時候，這個系統根本就不能夠正常執行，所以，我們就需要解決這個問題。大家都知道資料庫的規則是有很多的，資料庫

資料分析的資料架構知識詳解（三）

資料分析的架構是有很多的，比如傳統的大資料架構、流式架構、lambda架構、Kappa架構、Unifield架構。但是大家對於這些架構都不是很熟悉的，並且各個資料分析的架構都是有很多優點和缺點的，下面就由小編為大家解答一下這個問題。首先說說傳統大資料架構。我們叫傳統大資料架構，是因為其定位是為了解決傳

MPP架構海量資料分析倉庫——Greenplum介紹

一、Greenplum背景

二、Greenplum架構

相關推薦