1. 程式人生 > >世界級的開源項目:TiDB 如何重新定義下一代關系型數據庫

世界級的開源項目:TiDB 如何重新定義下一代關系型數據庫

事情 mon 窗口 邊界 下一代 能力 想是 問題 表現

著名的開源分布式緩存服務 Codis 的作者,PingCAP 聯合創始人& CTO ,資深 infrastructure 工程師的黃東旭,擅長分布式存儲系統的設計與實現,開源狂熱分子的技術大神級別人物。即使在互聯網如此繁榮的今天,在數據庫這片邊界模糊且不確定地帶,他還在努力尋找確定性的實踐方向。

在數據庫的平行世界裏,黃東旭以不同的方式在追隨著自己的內心。他認為,通常傳統的關系型數據庫無法滿足海量數據處理和分析時,新一輪的窗口期也隨之需求開啟,但是各類劣勢架構、內存架構、 NoSQL 等方案都不能滿足自己理想的解決方案,這些都不夠美,很少能夠把分布式事務與彈性擴展做到完美。

絕對的理性與感性,在黃東旭的身上看似矛盾,直到 2012 年底,他看到 Google 發布的兩篇論文,如同棱鏡般,折射出他自己內心微爍的光彩。這兩篇論文描述了 Google 內部使用的一個海量關系型數據庫 F1/Spanner ,解決了關系型數據庫、彈性擴展以及全球分布的問題,並在生產中大規模使用。“如果這個能實現,對數據存儲領域來說將是顛覆性的”,黃東旭為完美方案的出現而興奮, PingCAP 的 TiDB 在此基礎上誕生了。

當然,每向前進一步,都需要付出巨大的努力。在啟動 TiDB 項目之前,黃東旭先完成了一個開源分布式的 Redis 集群方案 Codis ,這個項目完成以後讓他們覺得雖然緩存的水平擴展問題有了解決方案,但是底層的關系型數據庫(主要是 MySQL 為主)並沒有一個優雅的擴展方案。業界除了在業務層分庫分表,或者使用中間件等折衷方案外,並沒有其他太多的辦法,有些業務可能能遷移到 NoSQL 之上,例如 HBase 、 C* 等,跟很多的業務沒法平滑遷移,幾乎需要重寫全部邏輯。如果采用分庫分表和中間件的方案,擴展以及高可用的方案會帶來大量額外的運維成本,比如無法使用跨 shard 的 join、子查詢、跨行事務等。

但是作為一個基礎軟件工程師的黃東旭他們不希望將這些復雜度轉嫁給業務層,所以就開始重新審視整個數據庫,希望從根本上解決 MySQL 的擴展問題,而不是再造一個中間件。

“如果創造一個全新的東西,使它有一天能夠成為生產力,那種感覺真好!”

在 2012 、 2013 年期間,黃東旭他們就開始研究了Google 發表的一系列關於新一代分布式數據庫 Spanner 和 F1 的論文以及相關的學術界的進展,直到 2015 年,他們覺得基本所有的技術問題和架構都已經思考得差不多了,於是決定出來全職去重新開始完整的實現一個新的數據庫,也就是今天的主角——下一代開源 NewSQL 數據庫 TiDB 。

當然了,創造並不意味著開始,它需要面臨的是無限的投入和無限的博弈來適應互聯網的競爭和審視,真正做到讓開發者和企業受益,才是真正的開始。

TiDB在整體架構基本是參考 Google Spanner 和 F1 的設計,上分兩層為 TiDB 和 TiKV 。 TiDB 對應的是 Google F1, 是一層無狀態的 SQL Layer ,兼容絕大多數 MySQL 語法,對外暴露 MySQL 網絡協議,負責解析用戶的 SQL 語句,生成分布式的 Query Plan,翻譯成底層 Key Value 操作發送給 TiKV , TiKV 是真正的存儲數據的地方,對應的是 Google Spanner ,是一個分布式 Key Value 數據庫,支持彈性水平擴展,自動的災難恢復和故障轉移(高可用),以及 ACID 跨行事務。值得一提的是 TiKV 並不像 HBase 或者 BigTable 那樣依賴底層的分布式文件系統,在性能和靈活性上能更好,這個對於在線業務來說是非常重要。

技術分享

▲ TiDB 整體架構

這群理想很豐沛,這不被骨感現實所惑的人。在 TiDB 研發語言的選擇過程中,放棄了 Java 而采用 Go 。

TiDB整個項目分為兩層,TiDB 作為 SQL 層,采用 Go 語言開發, TiKV 作為下邊的分布式存儲引擎,采用 Rust 語言開發。在架構上確實類似 FoundationDB,也是基於兩層的結構。 FoundationDB 的 SQL Layer 采用 Java ,底層是 C++ ,不過在去年,被 Apple 收購了。

在選擇編程語言並沒有融入太多的個人喜好偏向, SQL 層選擇 Go 相對 Java 來說:

第一是 他們團隊的背景使用 Go 的開發效率更高,而且性能尚可,尤其對於高並發程序而言,可以使用 goroutine / channel 等工具用更少的代碼寫出正確的程序;

第二是 在標準庫中很多包對網絡程序開發非常友好,這個對於一個分布式系統來說非常重要;

第三是 在存儲引擎底層對於性能要求很高,Go 畢竟是一個帶有 GC 和 Runtime 的語言,在 TiKV 層可以選擇的方案並不多,過去基本只有 C 或 C++,不過近兩年隨著 Rust 語言的成熟,又在經過長時間的思考和大量實驗,最終他們團隊選擇了 Rust。

Rust 這門靜態語言的定位是取代 C++,最大的特點是通過很多語法的限制來避免開發者寫出內存泄露和 data race 的程序,將很多問題解決在編譯期,使得運行時不需要花費額外的代價進行 GC 之類的事情,保證高性能。所以,寫出安全的程序,這正是 C++ 程序的很大的一個痛點。

雖然在 C++ 11 中有了很多的改進,但是由於歷史包袱太重或者第三方包庫開發者的水平參差不齊。但是重要的原因不因為別的,正是他們的背後並不是一個 C++ 背景很深的團隊,所以最後放棄了 C++ 11 而選擇了 Rust 。

Rust 不僅有安全和高性能的特點,同時語法更加現代,開發效率更高,另外擁有非常完善的包管理機制(Cargo),使得在能寫出非常高性能且安全的程序同時,開發效率比起 Go並沒有下降太多,對於目前來說是一個非常正確的選擇。作為 Rust 社區內全球最大的開源項目之一,也得到了 Rust 語言官方團隊的很大支持,黃東旭表示,包括一些他們需要的第三方庫,Rust team 都會放在很高優先級上去開發或者在社區裏推進。另外 Rust 早已發布 1.0,語法也早已穩定,是一個非常有前途的系統編程語言。

輪番在Google中刷出了存在感後,還一直在沒有盡頭的草原上奔跑,黃東旭認為只有聚焦,專註,才能擺脫掉令人迷惑的幹擾。在不斷的探索後,終於尋找到了實現事務模型的方式。

TiDB 的事務模型通過參考了 Google 的 Percolator。該論文發表於 2010 年,是描述 Google 在 BigTable 上的構建 ACID 跨行事務框架用於保證索引更新的一致性。算法的核心思想是兩階段提交,但是傳統的分布式兩階段提交的問題是單點的事務管理器沒法擴展,會成為整個系統的瓶頸,Percolator 使用了一個兩級鎖的機制實現了去中心化的事務管理器,使得整個系統的可擴展性大大提升。

技術分享

▲ Goolge Percolator內部實現

TiDB 將這個模型應用在底層的存儲引擎中,並做了很多工程上的優化,黃東旭舉例說,通過 batch 和 pipeline 等手段大大提升了授時服務的吞吐,使用 Raft + RockDB 來替代原文的 BigTable 性能更好,另外采用樂觀事務機制追求更高的吞吐,不過是從算法層面,是 Percolator 實現。

TiDB 對比 NOSQL

TiDB 對於這些 NoSQL 來說,最大的特點是編程接口是 SQL,SQL對於開發者而言是更加靈活的操作數據庫的方式,且對 MySQL 有著極高的兼容性—原業務的 MySQL切換到 TiDB 幾乎一行代碼都不用修改就可以完成。TiDB 在支持 SQL 的同時有沒有喪失 HBase 這樣的系統的彈性擴展能力,業務層不需要再去關心數據庫的容量,不用去考慮分庫分表,也不用像過去那樣投入很大的運維力量,擴容只需簡單加機器就好,存儲節點故障對業務透明,而且數據庫本身具有自我修復的能力,保證數據不會丟失。

對於 MongoDB 也是一樣,更重要的是不需要改變用戶已有的習慣和程序,而且為了定義未來的雲上的數據庫形態,TiDB 設計的目標是單集群需要可以 Scale 到 1000 以上物理節點的規模,支持 P 級別容量,萬億以上的行的結構化數據存儲,在這個前提約束下的設計和技術選型和 MongoDB 很不一樣,在大數據量的情況下 TiDB 的表現更穩定,擴展更加平滑。

TiDB 的 SQL 優化器是黃東旭他們從頭開始實現的一個面向分布式存儲設計的查詢優化器,使用了很多學術界很新的查詢優化技術和分布式計算框架的思想,保證 MySQL 兼容性的前提下比 MySQL 在復雜查詢下表現要好得多。

傳統數據庫的痛點解決

任何企業,如果使用傳統的單機關系型數據庫,在數據量持續增長下,或者對業務的可用性有嚴格要求的情況下,可能都會面臨單點故障和單點容量限制的問題,這個問題最近幾年在互聯網行業尤其突出,目前來說除了上面提到的分庫分表和中間件也並沒有其他的方案解決,幾乎苦不堪言。

TiDB 基於更先進的 Raft 算法來實現了存儲層的水平擴展基礎上加上了分布式事務,構建了完整的 SQL 查詢層,在保證不喪失 ACID 事務的前提下,支持 JOIN ,子查詢等復雜查詢,另外對外暴露 MySQL 接口,讓用戶幾乎在無侵入性的前提下,解決大量結構化數據的存儲問題。考慮到傳統行業和互聯網行業的代差大概在 3 年左右,另外這個時間在不斷的縮短,最近隨著 TiDB 趨於穩定,越來越多的互聯網在使用 TiDB ,相信未來會成為擴展數據庫的一個新的主流選擇。

TiDB 的應用場景

應用場景是典型的 OLTP 場景,範圍很大,覆蓋到任何企業。在關系型數據庫上遇到擴展性問題、同時需要強一致事務、需要實現多數據中心強一致和高可用,都是 TiDB 的典型用戶。TiDB 對 MySQL 的支持很完善,基於目前使用著 MySQL 的用戶或企業,希望尋求更優雅的水平擴展方案,都是非常不錯的選擇。

其實目前在統計大多數線上生產環境中使用的用戶基本都是互聯網場景,從 MySQL 過來。TiDB 目前暫時不支持存儲過程和視圖,所以前提條件是已有業務中沒有這類操作。

在項目開始第一天就確定了 TiDB 最大兼容 MySQL ,黃東旭坦言, MySQL 是一個單機的數據庫,而且查詢優化器是針對單機場景設計,基於這架構上去做一個分布式數據庫的難度很大。

而此時,他們決定選擇一條更徹底的道路,就是重寫整個 SQL Parser 和查詢優化引擎。雖然看上去幾乎是不可能完成的事情,但是實際做下來他們覺得在一個更良好設計和復雜度控制下,反而是一條更輕松的路。而選擇完全的 MySQL 兼容這個事情帶來的好處不僅限於對用戶的友好度,更重要的是能從 MySQL 社區吸取大量的測試。這對於一個數據庫產品來說,做出來並不難,如何證明你是對的,這才是更重要的!黃東旭他們不斷的從 MySQL 社區收集了千萬級的測試用例來保證每個模塊的正確性,和對 MySQL 行為的一致性。

TiDB 項目開源的程度

TiDB 項目是100% 開源,致力於做一個具有國際水準的頂級開源項目,從 Github repo 本身其實很難看出來這是一個背後是國人主導的開源項目,所有的提交記錄,所有的協作,Roadmap ,Issue tracking ,中英文文檔,以及代碼審核都是開源的。

而項目已經叠代到 Beta 4 版本,從線上用戶的反饋,主要的功能已經基本完善穩定。黃東旭表示,接下來重要的工作會是持續的性能優化和繼續提升穩定性,還有在更大容量,更惡劣嚴苛的集群環境下持續測試。當然周邊工具,部署教程,更多的設計文檔也是在持續的豐富中。

TiDB 的未來

從更長遠的角度,一切東西都會運行在雲端,數據庫也不例外。在海量數據,大規模集群的前提下,關系型數據庫的設計和理論還有很多東西需要探索,這種集群規模之下,一切依賴人工的運維都將會失效,因為人是沒法 scale ,數據庫需要具有自我修復和自我擴展的能力,也只有這樣,才能更好的利用集群的計算資源,這也為什麽 TiDB 團隊對自己的定位是要做 Cloud-Native 的數據庫,他們在為未來做很多基礎性的研究和準備,包含對 Kubernetes 和分布式數據庫的結合上也做了很多探索性的工作。

黃東旭希望 TiDB 定義下一代關系型數據庫,未來開發者能夠真正專註自己的業務,不用在關心數據庫有多大,並發可能會有多高,什麽時候需要擴容一下,選哪個 sharding key 好等這些問題都應該被隱藏在一個很簡單的 SQL interface 之下。

TiDB 有了非常不錯的開頭,他們做到了,在下一代關系型數據庫裏面,每個人都能感受到這種技術所帶來生產力的美好!

開源項目地址:https://github.com/pingcap/tidb

PS:黃東旭將在11月26號出席WOT2016大數據技術峰會,屆時在NoSQL實踐技術專場分享《NewSQL in action: Patterns and Tools》內容,敬請關註。

WOT2016大數據技術峰會官網:http://wot.51cto.com/

世界級的開源項目:TiDB 如何重新定義下一代關系型數據庫