1. 程式人生 > >思考:真正的分布式數據庫是否讓“數據湖”概念成為歷史?

思考:真正的分布式數據庫是否讓“數據湖”概念成為歷史?

數據庫 分布式 數據湖

原文地址:http://www.fromgeek.com/ai/152830.html

最近吳寧川一篇《厲害了,螞蟻金服!創造了中國自己的數據庫OceanBase》報道了OceanBase誕生的前因後果。內容非常詳實,值得分享。同時自己也分享幾點雜想:
第一,殺熟不僅僅是大數據時代的產物
之前從某網平臺爆出的訂購酒店或者是約車出行的殺熟案例。說明大數據時代我們每個人都處於一個小白,隨時宰割的狀態。
其實這種現象在各個領域都存在。比如,技術壁壘也是殺熟的條件之一。就像文章中談到的,王堅在2008年阿裏的時候,提出的去IOE行為。就是因為技術壁壘產生的殺熟情況。正常來看,IT采購是一個促進企業效率的工具。但是采購包括向小型機、高端存儲、數據庫,其采購的越多,成本是呈現幾何式增長。其IT采購不在是促進因素,甚至嚴重的阻礙了企業的發展。

就像IOE這樣的設備在阿裏雲業務大規模發展過程中,帶來的成本越來越高。對於阿裏來說,失去了其技術促進生產的原動力。在這樣的情況下,螞蟻金服自主研發的OceanBase數據庫。
第二,真正的分布式數據庫誕生,打破了傳統的“數據湖”概念。
何為傳統的“數據湖”概念,就是把多個物理上的磁盤看成是虛擬的一個存儲單元,OceanBase 團隊SQL開發方向負責人陳萌萌的說法是把所有的數據庫看到的是同一個數據磁盤、共享數據訪問,可以確保所有的數據都可被訪問到,但是對硬件要求提出很高的要求,就是底層硬件本身要穩定可靠。可以看到這種理念被絕大多數的傳統企業甚至包括互聯網企業所接受。
而阿裏打破了這個理念,全球僅有兩家企業打破了這個理念,一個是阿裏,一個是Google。
陳萌萌認為目前真正的分布式數據庫全球僅有兩家,阿裏的OceanBase,以及谷歌於2017年2月發布的全部自研的Spanner分布式數據庫雲服務。
即使是AWS推出的Aurora數據庫,其設計原理更接近於傳統數據庫的共享磁盤設計。
具體來講OceanBase在處理數據訪問的時候,相當於把一臺原來的小型機或存儲設備從縱向“切片”成很多機器,再把數據分布到這些分散在不同的機器上,個人理解應該是把一個整體“數據湖”分成了多個小的“數據池”。
OceanBase的一個基礎設計思想是把每一份數據存放在三臺不同的機器上,那麽一臺PC服務器出故障的概率為千分之一的話,兩臺同時壞的概率可能就是百萬分之一,三臺同時壞的概率則是十億分之一。
第三,OceanBase分布式數據庫是否可以與區塊鏈技術結合?
首先我們看到王堅提出阿裏要建設分布式數據庫與中本聰提出的比特幣白皮書是同一個時期。這裏我們看到,從2009年開始,王堅就在考慮一個真正適應未來互聯網業務的分布式數據庫。大家可以換個角度看,也是在同一時期,中本聰提出了一種點對點的電子貨幣系統,其背後采用的區塊鏈(被人們戲稱也叫做“有史以來最慢的分布式數據庫”)技術。
不同的是,Oceanbase作為一個商業項目,經過這幾年的不斷發展,單純看這個數據庫,既實現了分布式的數據存儲,又做到了數據庫查詢優化。在真是應用場景上,相對於傳統的銀行櫃臺,人工窗口提供服務花費大量的時間獲得服務,螞蟻金服基於oceanbase提供的互聯網金融應用,為用戶提供了優質的互聯網服務體驗。
所有區塊鏈這種緩慢的分布式數據庫技術,可以參考阿裏的Oceanbase或者Google的Spanner數據庫技術。這樣,對於區塊鏈技術的推進有著積極的作用。

思考:真正的分布式數據庫是否讓“數據湖”概念成為歷史?