1. 程式人生 > >以數據庫思維理解區塊鏈

以數據庫思維理解區塊鏈

jpeg 區塊 所有 想要 raft 就是 定義 以及 特定

作為一個數據庫行業的老兵,我看到在區塊鏈技術的熱潮下,傳統的IT技術同學們保持了十分理性,甚至是排斥的態度。其實不管是熱捧還是排斥,兩極觀點之下,我認為我們應該從IT人比較能夠理解的角度探討一下區塊鏈技術。因為區塊鏈這個東西的本質和數據庫技術非常相像,很多機制使用數據庫的理念去理解會非常直觀準確。

對於區塊鏈和傳統數據技術,我認為區塊鏈技術的未來發展,主題是“融合”。我們就從數據庫這個角度來解讀區塊鏈技術體系中各個技術點,以及通過“去中心化數據庫”這個概念,把區塊鏈與數據庫技術做一個比較好的整合。

一、區塊鏈技術現狀

當前的區塊鏈世界有人號稱1.0、2.0、甚至已經到了3.0時代,但是從一個產品或技術打磨的角度來看,我認為當前的區塊鏈也就相當於數據庫的80年代,處於百花爭鳴各種思想層出不窮的時代。

對技術人來說,這是最好的時代,各種新鮮的想法和思路大量爆發,在沈悶的技術領域帶來新鮮的突破;同時這也是最壞的時代,沒有任何產品或方向肯定是未來的主流,任何新鮮的思路也許在幾個月以後就被證明不可行。

所以,我們要正確認知當前區塊鏈技術的變革和發展,那我們來對比當年數據庫所走過的道路,看看未來區塊鏈世界會怎樣發展。

技術分享圖片

1、技術演進路程

首先我認為,區塊鏈一定會從當前的專有化向通用化演進。現在基本所有做公鏈的產品都是針對某一個特定的場景來實現與優化,但是我認為未來一定不會是一個應用一條鏈,而是有一種通用的開發範式。就好像傳統數據庫一樣,不管大家開發什麽樣的應用程序,都可以使用這麽若幹有限的幾個通用性產品就能夠滿足大部分業務場景了。

第二,向標準化演進。對於區塊鏈技術,現在每個鏈基本都有自己的開發範式,甚至很多公鏈還模仿以太坊嘗試自己做一個編程語言出來,這實際上是一種行業處於原始時期的標誌。怎樣判斷一個行業開始走向成熟?就是業務模式基本固定、開發方式基本固定,這樣就能夠對大量的程序人員進行推廣了。

第三,產品化和模塊化不斷加強。當前不管是以太坊、比特幣還是很多其它新的公鏈,大部分的體系結構都是非常緊耦合的。對比起我們在大數據領域的Hadoop,基本每個模塊都可以作為獨立插件進行可配置可定制的插拔。所以我認為,隨著區塊鏈技術的不斷成熟和穩定,未來一定會出現一款成熟產品,能夠通過可插拔配置與插件的方式滿足多種共識算法、安全機制等。

最後,性能與可擴展性的提升。實際上這也是數據庫所走過的路,當前區塊鏈世界想在短短的時間之內通過側鏈、分片等機制跨過當年數據庫幾十年來的變革。

接下來我會介紹,從數據庫的角度看待區塊鏈其最大的性能與擴展能力制約瓶頸在什麽地方,以及應當如何優化。

2、發展現狀

那我們回過頭看看當前區塊鏈行業的現狀。

拋開區塊鏈上層的一些應用與金融領域的創新,單獨從技術角度來看,我一直認為其最大的革新在於對等數據存儲機制的建立。

在數據庫這個行業裏,大家一直遵從著主-從架構,而完全“多活”的系統從幾十年前的提出一直以來都是傳說中的事情,從來沒有任何產品真正做到多活。

而當我們以創新的多活數據庫來看待當前區塊鏈技術時,就會發現三個急需改進的問題:

  • 首先,區塊鏈的體系結構現在非常混亂,大家還沒有向傳統數據庫一樣將其分類為事務、存儲過程、鑒權、主從同步等模塊,大部分人對區塊鏈的認知還是停留在神秘的黑盒子階段。
  • 第二,區塊鏈的開發語言完全不成體系。數據庫在經過開始的“戰國時代”後,漸漸使用SQL做到了業界的大一統。而區塊鏈當前明顯還處於“戰國時代”,還沒有一個統一的標準開發和使用標準。
  • 第三,需求的多種多樣,有些需求或白皮書的業務介紹是靠譜的,有些則是完全異想天開不知所雲。實際上這個和區塊鏈所帶來全新的業務模式相關,很多人還在探索新的業務模型,從而導致需求沒有形成標準範式。

二、區塊鏈vs數據庫技術:相同點

從數據庫的角度對比,區塊鏈技術即去中心化多活數據庫技術,兩者之間沒有本質區別。

這裏我列舉了一些區塊鏈裏面比較重要的技術點,以及這些技術點在數據庫領域中是以什麽形式存在的。這些概念和數據庫中的技術概念一一對應關系如下:

共識機制

一致性控制——共識機制

分布式數據庫中叫做一致性控制,包括傳統的主從復制、新一代的Raft、Paxos等算法。在區塊鏈中為了解決額外的拜占庭問題,將算法改進為PBFT、PoW、PoS等協議。

存儲機制

數據庫日誌——賬本

區塊鏈結構基本等價於數據庫的事務日誌,其主要新增的內容包括Merkle Tree結構用於快速驗證數據的正確性,但是其本質與數據庫的交易日誌等價。同時數據庫在日誌中更會包括事務控制等企業級能力,是區塊鏈數據結構所不具備的。

智能合約

智能合約——存儲過程

智能合約與數據庫存儲過程一樣,都是一段托管代碼。本質上智能合約與數據庫存儲過程沒有什麽區別,都是通過外部調用或虛擬機執行一段代碼,並可以將托管代碼共享給其他用戶進行調用。

分片

數據庫分片機制早在MPP數據庫時代就已經存在。通過將大量數據切分在不同分片中,達到限制每個分片數據總量,並提升總吞吐量和存儲空間的目的。

應用開發接口

當前區塊鏈還處於類似數據庫當時的早期時代,接口沒有統一標準化。根據區塊鏈項目不同,其接口可以按照數據庫、對象存儲、API調用、甚至PaaS平臺標準進行定義。

安全

區塊鏈的安全機制與數據庫安全機制具有相似之處。數據庫安全一般分為鑒權與授權兩個模塊,分別代表用戶登錄以及訪問權限。而區塊鏈當前僅支持記錄級寫授權,但是對於讀操作時完全共享的。因此,從安全策略上數據庫比當前的區塊鏈完善很多。

三、區塊鏈vs數據庫技術:不同點

技術分享圖片

數據庫與區塊鏈功能架構圖

1、功能架構

黃色部分是區塊鏈和數據庫架構都擁有的功能。白色的部分是目前數據庫獨有的功能。

我們在上文也有提及數據庫的SQL能力是實現其通用性的重要部分,SQL對於之後區塊鏈的開發模式固定下來很重要。

索引管理這塊,在數據庫中主要是提升數據管理和數據查詢的性能效率的,當具體的應用場景出現,性能將成為下一階段需要提升的重要部分。因此,存儲的數據的索引就成為很重要的組成了。

2、機制

在機制上,區塊鏈和數據庫的主要區別有如以下幾點:

  • 一致性

區塊鏈的設計思想,與傳統數據庫設計思想最大的不同就在於多活,也就是去中心化這個體系下所帶來的一致性模型的區別。

傳統的關系型數據庫遵循ACID強一致模型,寫入的記錄立刻可以讀到。而一些新型分布式數據庫采用最終一致性,也就是BASE模型,寫入的數據暫時不一定讀到,但是最終一定會存在。

但是,區塊鏈或者說去中心化數據庫的設計思路就存在明顯區別,也就是說任何操作不存在“永久確認”這個概念。即使類似比特幣,從核心原理上來看6個塊之前的內容也只是“基本不會被回退”。

舉個極端的例子,如果中美之間廣域網出於什麽原因突然斷了三天,之後恢復的話比特幣一定會出現大規模分叉,這個期間如果有賬號同時在中美進行大額消費的話,想要恢復一個主鏈則一定需要犧牲很大一部分人的交易才能實現回退。

那麽,既然在對等架構中沒有辦法保障強一致,那麽區塊鏈體系中的一致性則和傳統數據庫存在本質上的區別,從而引發後續一系列設計上的不同。

歸根結底,在任何傳統主從架構的數據庫模型中,人們會想盡一切方法防止集群內出現“腦裂”,也就是同一個集群裏面兩個節點都認為自己是主節點。

但是這個問題在對等數據庫體系下時時刻刻都可能發生,而這種現象在區塊鏈裏面叫做分叉,這是和我們傳統數據庫一致性模型非常不同的地方。

  • 鎖機制

其中,鎖機制可以說是區塊鏈與數據庫在保障數據一致性方面最大的區別。

所有研究過數據庫的同學不可能沒聽說過鎖。當我們做一個事務的時候,提交之前所有該會話變更的記錄都要被鎖住,不能被其他會話所修改。

而去中心化數據庫,由於每個賬本節點操作本地數據,變更信息會異步地傳輸出去,因此根本不存在一個全局鎖能夠在記錄變更的時候通知其他人。因此,在無鎖的前提下,去中心化數據庫,也就是區塊鏈該怎樣保障數據一致呢?

比特幣使用的是UTXO結構,有點類似於數據庫的“樂觀鎖”的思路,也就是操作的時候不進行鎖定,只有在最後提交的過程中判斷記錄有沒有變化。

比特幣則是通過coin是否被花費的狀態來判斷是否存在交易沖突。而以太坊則是使用nonce作為每條記錄的遞增計數器來判斷是否存在針對某一賬戶的重復交易,實際上也是一種變相實現的行級鎖的機制。

  • 安全機制

另一個區塊鏈業界大家談論比較多的就是安全機制。

首先,我不是加密算法專家,因此我在這裏不去討論具體使用的加密算法,而是從整個存儲體系的安全模型設計上,來討論一下區塊鏈技術中如何在全對等架構的體系下保障數據安全。

在我看來,區塊鏈的安全體系分為三個級別,記錄級、區塊級以及鏈級。

記錄級安全主要是判斷某一條操作記錄是否合法,在一些實現中還包括是否對不同用戶有讀可見和寫可見。

而區塊級則是當節點接收到另一個節點發送的區塊時,如何判斷這個區塊本身沒有被篡改過,那麽通過默克爾樹、挖礦的結果等機制都可以做到。

最後,怎樣保證鏈的完整呢?比如每個數據塊需要包含鏈中上一個數據塊的校驗,以及當分叉發生時如何進行回退等,都是保障整個鏈條結構的完整。

四、去中心化數據庫架構

區塊鏈技術和數據庫技術的融合會形成怎麽樣的結果呢?

我們是否能夠將現有的區塊鏈以數據庫的架構進行組織,分為內核、運行庫、插件,以及SQL解析優化等不同模塊呢?

既然數據庫的核心本質依然是不可變更的事務日誌,這一部分等同於區塊鏈的鏈結構,那麽如果我們通過將SQL引擎架設在state store,甚至讓SQL引擎直接對鏈內的數據進行訪問,是不是意味著我們就擁有了一個通用的編程和訪問接口?

又例如:對於安全組件,我們是否可以做到列級行級表級以及節點級別的安全認證,同時可以通過配置指定哪些表需要進行數字簽名,哪些表的一些字段是共享的,但其他字段是需要經過多重簽名做加密的等。

另外,對於一致性來說,我們是否可以指定某些表是全局共享表,某些表則是本地表,這樣就可以取代現在區塊鏈與數據庫混用的部署方式。

我認為,未來會出現兩者融合而成的 “去中心化數據庫”。

技術分享圖片

去中心化數據庫基本功能

去中心化數據庫的基本特性:

  • 去中心化:架構是完全的去中心化的,不存在中心的控制節點,每個節點都具備讀寫的功能,每個節點的數據都是一致的;
  • 無全局鎖:由於采用廣域網上的對等架構,去中心化數據庫不可能實現全局鎖,因此系統只能使用在某種程度上弱化鎖與一致性,來滿足高可用的需求;
  • 非固定節點生成日誌:非固定節點生成日誌,日誌是整個數據庫的日誌,在去中心化的體系結構中任何節點都有權記錄日誌,這樣就形成了去中心化沒有主節點的架構,任何節點都有機會臨時成為記賬節點出塊;
  • 異步事務確認:由於不存在全局鎖,與傳統數據庫相比一些事務機制必須得到調整。將事務的提交回滾做到異步可能是一種比較可行的思路;
  • 一致性策略調整:在多活的區塊鏈狀態下,數據的一致性策略會與傳統的數據庫一致性機制有所不同;
  • 行級別安全性和觸發器:對於數據安全,去中心化數據庫將會保證到行級甚至列級的數據安全性。

五、區塊鏈和數據庫技術融合:中心化數據庫

對於區塊鏈和傳統數據技術,我認為區塊鏈技術的未來發展,主題是“融合”!

現在區塊鏈的業務理念飛速發展,但是從技術本身來看,我認為當前區塊鏈的技術仍然和上世紀“80年代”的數據庫技術階段類似,在技術的成長期。如我們上文所提到,區塊鏈技術在通用性、標準化上還有很長的路要走。

而基於技術路線和架構設計的類似,數據庫技術與區塊鏈技術的融合其實是大勢所趨。 而通過區塊鏈技術和機制的引入,去中心化數據庫,將可能是未來技術發展的一個重要方向。

以數據庫思維理解區塊鏈