1. 程式人生 > >深度剖析——超融合架構應用與實踐分享

深度剖析——超融合架構應用與實踐分享

大家好,我是青雲的 lester ,目前負責青雲QingCloud 的超融合產品系列。今天由我向大家分享 QingCloud 對超融合架構的理解,以及在超融合架構方面的實踐經驗。

今天分享的話題主要分三部分:

1、什麼是超融合架構。

2、從資料中心的發展趨勢分析為何要使用超融合架構。

3、青雲QingCloud 超融合架構的特點。

首先、我先介紹一下,什麼是超融合架構。

超融合架構是近 2 年來非常熱門的詞彙。但其實超融合的概念並沒有一個非常嚴格的定義。以目前較為廣泛接受的觀點來說。超融合基礎架構(Hyper-Converged Infrastructure,或簡稱“HCI”)是指在同一套單元裝置中不僅僅具備計算、網路、儲存和伺服器虛擬化等資源和技術,而多套單元裝置可以通過網路聚合起來,實現模組化的無縫橫向擴充套件(Scale-Out),形成統一的資源池。

超融合架構類似 Google 、Facebook 後臺的大規模基礎架構模式,可以為資料中心帶來最優的效率、靈活性、規模、成本和資料保護。

由此可見,超融合架構是一種技術手段,而並不是某一類特殊的硬體產品。而目前市面上,很多硬體廠商將超融合架構與高密度伺服器統一包裝宣傳,由此造成了很多誤解,似乎只有多節點高密度伺服器才是超融合。

這裡正好可以回答先前大家提出的一個問題 “超融合,聽起來就是以前的刀片機,不知道從架構、用途、擴充套件性上有什麼本質上的提升嗎?”

其實,超融合架構要達到的目的之一,就是現實軟體與硬體的解耦。使用通用的伺服器實現,傳統架構下使用專用硬體才能達到的功能。

資料中心發展到現在主要經歷了 3 個階段:

1、孤島式的資料中心

其架構是 90 年代中後期形成的,以大型機、小型機、大型資料庫、集中式儲存加上高可用軟體組成的架構,這種架構適應了當時的資料大集中趨勢。它也是資料中心進入萌發發展階段的標誌。採用集中的方式配置硬體支援,再由專用的物理伺服器為特定的應用程式提供支援。

傳統 IT 廠家在這一階段得到了飛速的發展。因為集中的部署方式必然會帶來對硬體產品的效能、可靠性及擴充套件性需求的增加,促進了高階裝置的銷售。

但是企業隨著應用的增加, IT 系統已經成為企業不可或缺的生產系統,同時網際網路發展帶來的爆發性資料增長。這種孤島式的資料中心架構的弊端也隨之產生。

  • 首先,應用的可靠性,嚴重依賴於硬體提供的RAS特性。導致硬體產品規格不斷的提供,硬體採購成本極為高昂。

  • 其次,煙囪式建設,離散式管理;裝置種類繁多,運維難度大,運維的成本也隨之增長。

  • 最後,物理裝置部署週期長,嚴重影響系統上線進度;資源排程不靈活,大量系統等待擴容,同時大量系統資源利用率嚴重不足;浪費嚴重,機房空間難以為繼。

2、虛擬化資料中心

2003 年伺服器虛擬化技術的出現,以 VMware 為代表的軟體廠商帶領資料中心由物理硬體資料中心向虛擬化資料中心轉變。由此從 2003 年開始,資料中心進入了第二個階段——虛擬化資料中心。

虛擬化技術提高了伺服器的資源利用率,並通過 VM 線上遷移(例如 VMware Vmotion)技術大大降低了資料中心對伺服器 RAS 特徵的依賴。伺服器虛擬化技術的大規模應用直接導致了應用由 Unix 小型機平臺遷移至 X86 + 虛擬化 + 集中儲存。而 X86 刀鋒伺服器 + VMware + EMC 儲存陣列的架構成為這一時期資料中心的主宰。

伺服器虛擬化的應用對底層硬體的影響有兩個方面。

1、伺服器本地儲存可以極度簡化,只需要安裝虛擬化軟體即可。因此刀鋒伺服器非常適合這種架構。每個刀片只需配置 1-2 塊硬碟。再通過 HBA 卡連線集中儲存即可。

2、儲存。伺服器虛擬化的 HA 功能極度依賴於外部磁碟陣列,由此極大的促進了 FC SAN 儲存的銷售,這也是 EMC 控股 VMware 的一大原因。

隨著網際網路的不斷壯大,越來越多的業務需要網際網路化,傳統的虛擬化資料中心逐漸不能適應業務發展帶來的變化。這是由於虛擬化資料中心僅僅解決了伺服器資源利用率和高可用性的問題,但是計算與儲存分離,只能通過專用的 FC SAN 網路訪問儲存資源的方式又帶來了新的問題。

  • 第一是擴充套件性問題。磁碟陣列的擴充套件性通常採用 Scale UP 的方式擴充套件,在規則生產製造時就已經決定。儲存裝置之間的資料遷移非常困難,這也導致了效能孤島和資料孤島的出現。

  • 第二是可靠性問題。虛擬化加集中儲存的架構,非常依賴於儲存的 RAS 特性。儲存裝置故障將導致整個虛擬機器資源池的停機。

  • 第三是效能問題。VM 的 I/O 效能完全取決於後端儲存的能力。而單一儲存的 I/O 效能是有明顯上線了。目前的主流儲存裝置均採用雙控制器的架構,為了保證可靠性,每個控制器的資源使用率不可能太高,且埠和快取都需要映象使用,以確保單個控制器故障的時的業務連續性。

  • 第四是運維問題。各個廠家的儲存裝置是互不相容的,每種裝置都需要專業的運維人員。 IP 網路與 FC SAN 也是完全孤立的,加大了運維的工作量。有人會說,儲存虛擬化是不是能解決這個問題?儲存虛擬化確實可以簡化儲存陣列的部分管理難度,但由於儲存虛擬化裝置又是一種新的專用硬體裝置。又在儲存網路上增加了一層複雜性。就像很多廠家採用級聯方案管理叢集一樣。 這並不能降低整個架構的複雜性。在大規模部署的時候反而會帶來新的問題。

  • 最後一點就是成本。對專用裝置的依賴顯著的增加了基礎設施的成本。還是以儲存裝置為例,世界上生產機械硬碟的廠家主要就是希捷和西數(包括收購的HGST)儲存廠家通常會對硬碟進行 Lock-In ,必須使用專用的硬碟才能對儲存進行擴容,相同規格的硬碟在盤陣中的售價會是通用伺服器的數倍。為確保磁碟陣列的高可用,通常的辦法只有買 2 套,甚至 3 套相同配置的陣列,再通過專用的同步複製或非同步複製確保資料的高可用性。而儲存複製軟體通常又會以 TB 的方式授權。如果更換了陣列廠家,這些複製軟體的費用又等於白費。

3、軟體定義資料中心

如果繼續不做改變的話,企業的 IT 成本就太高了,於是企業開始寄希望於分散式的架構,有了一個很火的詞——去 IOE 。其實去 IOE 本質是分散式架構替代傳統架構的IT架構的變革,網際網路企業是這場革命的先鋒。從 2011 年至今,資料中心開始向以雲端計算技術為代表的軟體定義資料中心發展。

要實現雲端計算的發展,進行異構硬體系統的融合是必須解決的問題。傳統伺服器虛擬化技術只能在專用的硬體裝置上實現資源的虛擬化和管理,並沒有徹底實現硬體資源與虛擬化管理軟體之間的解耦。這使得儲存虛擬化這類技術並不適用於大規模的虛擬資料中心環境。比如,企業如果想將傳統的 IT 基礎架構改造為虛擬化的雲端計算資料中心,在技術上和經濟性上都是不可行的。

而採用軟體定義的技術,將計算、儲存、網路與專用硬體實現解耦才能實現 IT 基礎架構的真正融合,為雲端計算資料中心的實施與部署掃清最後一個障礙。從 2011 年左右起,軟體定義的資料中心首先出現在網際網路公司,其代表是 AWS 、Google 等新時代的 IT Vendor 。

下面我借用幾張圖片說明一下新一代資料中心的特點。

1.jpg

軟體定義資料中心的概念圍繞讓三個資料中心的重要基礎設施(伺服器,網路和儲存裝置)變得更為靈活,更自動化,並且更少依賴基礎物理硬體。以亞馬遜為代表的真正雲端計算服務商均基於標準化的通用 X86 伺服器通過軟體定義的資料中心向使用者提供計算、網路和儲存服務。

軟體定義資料中心(SDDC)技術是構建大規模雲端計算服務的基礎,為資料中心帶來最優的效率、靈活性、規模、成本和可靠性。可以說,這是實現 “真正的雲端計算” 所必須的技術之一。

我們知道 “雲” 這個字已經被無數的廠家和產品所劫持了。前幾天朋友圈有個傳播很廣的段子。某廠家 10 年前賣給你一臺伺服器叫“電子商務”;5 年前賣給你一臺伺服器叫 “智慧XX”;今天賣給你一臺伺服器叫 “雲端計算”;明天還是賣給你一臺伺服器叫 “大資料”。

而 “真正的雲端計算” 對資料中心的基礎架構是有巨大影響的。前段時間 Wikibon 的分析是 對 “True” Private Cloud Definition 進行過分析。(大家有興趣的話可以參考 http://wikibon.com/true-private-cloud-will-begin-shipping-to-the-market-in-2016/)其認為 2016年將是真正雲端計算落地的開始。下面分享一張被廣泛引用的圖片。同樣來自於 Wikibon 2014 年的分析報告。

2.jpg

以軟體技術取代專用硬體也是資料中心基礎架構的發展趨勢,以 EMC 為代表的傳統集中儲存架構已近黃昏(圖中紅色部分),傳統的 DAS 、 NAS 和 SAN 因為其成本高昂、技術要求高、使用複雜且可靈活性差,將逐步被客戶所拋棄。

而提供雲端計算服務的大型機構或公司如 Google、亞馬遜、微軟等採用的超大規模融合架構以及軟體定義儲存架構會給企業使用者的 IT 架構帶來各種靈活性、安全性和成本優勢,使得其部署與使用進入高速發展期。

2015 年中,傳統儲存行業老大 EMC 被伺服器廠家 DELL 收購成為這場技術變革的標誌性事件。於此同時,傳統虛擬化廠家 VMware 也推出了 VSAN 軟體用於替代昂貴且過時的集中式儲存裝置。而儲存市場表現也印證了這一趨勢,2015 年第三季度全球企業儲存系統市場營收同比增長 2.8% ,規模達到 91 億美元。但是….

3.jpg

這是來自於IDC 2015年Q3對磁碟儲存市場的統計報告

市場營收規模增長最主要的動力來自於超大規模資料中心和基於伺服器的儲存兩大領域。以直接面向超大規模資料中心使用者銷售的 ODM 位列,該業務同比大幅增長 23.4% ,達到了 13 億美元;而基於伺服器端儲存銷售也實現了同比 9.9% 的增長,達到了 21 億美元的規模。外部磁碟儲存市場仍然是全球企業級儲存市場最大的細分市場,不過本季度該市場出現了同比 3.1% 的下滑,規模為 58 億美元。

紅圈部分的 ODM 廠商的增加大部分就是為雲端計算廠家提供的通用伺服器。

包括青雲在內的真正提供大規模雲端計算服務的廠家,均採用了超融合架構+通用伺服器的方案,為大量的使用者提供計算+網路+儲存的服務。

4.jpg

因此採用超融合架構提供雲端計算服務已經是一個明顯的趨勢。其特點是通過軟體幫助使用者將伺服器、網路、虛擬化等整合為一個易於管理的整合系統,並通過自動化運維減少手動操作,提高安全性和降低人為錯誤,從而降低實施和運維風險,並降低運營成本。而 QingCloud 提供的超融合系統又有別與傳統的超融合架構。

最早的融合系統其實是物理堆砌的概念。將伺服器+網路裝置+儲存裝置打包交付給使用者。其代表是傳統 IT 廠商推出的各種 Block 方案。

5.jpg

這一代的融合系統主要為使用者解決了快速交付和配置優化問題,但從使用上來說,和使用者自己搭建的系統並無明顯區別。

而第二代的融合系統是以超融合裝置廠家為代表的方案。雖然這類廠家號稱自己使用了 AWS、Google 等使用的分散式儲存技術,並將之用於傳統企業。 但其本質上僅僅是將分散式檔案系統打包銷售的方案。其關注點主要還是在用分散式儲存替換集中儲存上。其特點如下圖:

6.jpg

要真正地使用這類裝置,其實還需要上層的伺服器虛擬化+網路虛擬化+雲管理平臺+雲服務平臺等模組的配合。而 QingCloud 的超融合系統,是集成了 QingCloud 公有云的完整功能,達到開箱即用、一步到雲的目的。

7.jpg

我們的初衷是為了幫助客戶更快、更靈活、更低成本的將雲端計算能力落地到自己的資料中心。

8.jpg

因此,QingCloud 的超融合系統不繫結任何的硬體裝置。無論是我們提供的一體化硬體還是第三方的伺服器都可以形成一個統一的叢集。相對於友商的方案,我們有幾個優勢:

  • 軟體架構經過了 QingCloud 公有云的大規模驗證;
  • 單一系統可提供與 QingCloud 公有云一致的功能;
  • 與公有云保持相同的軟體版本,為使用者提供無縫遷移到混合雲及公有云的方案;
  • 不依賴於 SSD 即可提供高效能的儲存;
  • 極致的 SDN 2.0 功能(見連結)。

——————————

QA

1、咱們超融合和 SMARTX、深信服的底層架構有啥區別優勢是什麼?

答:這個問題剛剛我的分享中其實已經回答了。QingCloud 超融合是經過了大規模驗證的成熟系統,其擴充套件能力、可靠性、效能時時刻刻都經受著使用者的考驗。任何使用者都可以登入我們的公有云進行驗證。

我們承諾的擴充套件能力、可靠性、效能都是公開透明的。同時 我們提供的是完整的雲端計算服務能力。分散式儲存僅僅是我們的一小部分功能。

另外 我們的儲存也無需採用 SSD 即可滿足大部分應用的 IO 需求。當然 我們也支援 SSD 的方案和 SSD 快取的方案。

在硬體設計部分,我們有更優的可靠性設計。包括 OS 盤高可用、本地盤高可用。普通的硬碟損壞 無需依靠網路進行資料重構。

在效能方面。採用 12 個 10K 的 SAS 盤,即可提供 85,000 以上的 4K 隨機讀效能。

2、超融合除了在資料中心的使用場景外,在公安、海關、稅務等政府行業有哪些細分的應用場景?

答:超融合架構可以適用於絕大部分的企業應用。我們已經在公安部的某局將超融合一體機應用於其內部的大資料專案。對於使用者來說,實現了雲端計算與大資料處理的資源共享。使用者直接呼叫QingCloud 的 Spark/Hadoop 服務,在 QingCloud 超融合上快速地部署大資料應用。

3、超融合,聽起來就是以前的刀片機,不知道從架構、用途、擴充套件性上有什麼本質上的提升嗎?

答:超融合只是一種架構設計,並不依賴於某種硬體裝置。但是從硬體優化的角度來說。我們要求伺服器有較多的本地盤,從而讓儘量多的 IO 在本地就實現了訪問。

刀片機從設計上太過於複雜且昂貴,其整合的交換機、機箱管理模組等裝置是不適合超融合架構使用的。目前有很多廠家選取了 2U 4 節點的裝置作為超融合的物理節點。但其實 2U 4 節點的伺服器早在 5 年前就已經面世。由於當時的萬兆網路和分散式儲存並不普及,所以其定位比較尷尬,既沒有刀片的整合度高,又沒有全寬機架式伺服器的擴充套件性好。

這類伺服器的特點是,在同一個機箱內集成了多個獨立的伺服器,並共享電源,達到提供部署密度並降低能耗的目的。其並不整合網路交換機和機箱管理等模組,因此每個節點的成本得以降低,2U 4 節點只需要 2 個電源就行了。會比 4 臺獨立伺服器更加節省電力。因為 4 個節點共享 2 個電源提高了電源的負載。電源負載在 50% 以上的時候有更優的轉換效率,通常會比 4 臺伺服器節省 16% 以上的能耗,但是青雲並沒有選擇 2U 4 節點的硬體方案。因為 2U 4 有幾個比較明顯的缺陷。

  • 2 個冗餘電源通過一個電源背板供電 4 個節點。一旦發生電源背板損壞, 4 個節點全部掉電。這對於分散式架構來說等於是放大了節點失效的風險,從而需要更多的節點來進行冗餘。
  • 2U 4 節點伺服器本地盤太少。通常每節點只有 6 個 2.5 寸盤或 3 個 3.5 寸盤。通常的廠家會採用內建的 SATA DOM 安裝 OS,前面板 6 個盤放使用者資料的方案。但這就造成了 OS 盤的單點故障。經過我們在公有云上的驗證,SATA DOM 的可靠性遠低於 SAS 盤。這等於放大了節點失效的風險。 因為多副本只是針對資料盤的保護,並不能保護 OS 盤。
  • 從成本角度來說。系統的成本是一致的,太少的本地盤無異於增加了每 TB 儲存的硬體成本。
  • 從效能角度來說,6 個盤的空間太小,只要 VM 一多就不可避免的會發生頻繁的跨節點訪問。這對於大規模部署來說是致命的。

4、RAS 是 Reliability, Availability, Serviceability 的縮寫吧?

答:是的。

5、關於儲存有個問題,目前系統整合專案上對於儲存的採購一般按照 110% 到 120% 進行,採用雲端儲存架構以後是否要按 300% 進行採購?

答:首先從成本的角度考慮,就算採購 2-3 倍的本地盤,其成本也比集中儲存有優勢。從整體擁有成本的角度來說,其後期的服務費用也低於集中儲存。

其次從可靠性來說,集中儲存要實現高可用,也至少需要2臺同等配置。

所以集中儲存的採購,在考慮 HA 的情況下,也至少需要 200%。另外還需要同步軟體的授權。

6、這裡有個疑問,如果是 Cisco UCS,Director 軟體分攤下來的成本也是不低的,我們測算過要 40 個以上的刀片才能跟機架伺服器相比有優勢。

答:這個問題很好。刀片的成本優勢通常只能子在滿配的時候才會比機架式低。從高可用的角度考慮,我們推薦使用者將節點進行跨機櫃部署。所以刀片這種架構的靈活性就很差了,而且其儲存空間依賴於集中儲存。所以並不適合分散式的儲存架構。

7、這麼看來資料中心僅僅需要兩臺或者多臺核心交換機加超融合一體機即可構建資料中心了 這種架構還用得著核心交換機麼?

答:根據實際的部署規模,可以選擇單層還是雙層的網路架構。如果規模小,只部署一層三層萬兆交換機即可。由於 QingCloud 是完全不依賴於硬體功能的 SDN 設計,所以可與選取最廉價的萬兆交換機做互聯。以我們通常的部署環境為例。我們推薦用思科 3064 或者華為 6300 級別的的 48 口全萬兆交換機即可。

我們公有云環境的部署規模比較大,所以採用了 2 層接入 + 3 層核心交換的架構,但都不用採用高階的交換機。

8、請問在超融合架構下,企業現有的 SAN 還能用嗎?怎麼用呢?

答:QingCloud 超融合的新版本支援使用者既有的 SAN 儲存環境,但這僅僅是為了實現使用者的利舊需求。我們並不推薦在新環境上部署 SAN 儲存,其原因之前已經解釋過了。

9、問下和 Nutanix 等廠商產品的特性區別。

答:這個同問題一。Nutanix 只是分散式儲存,當然其也在試圖向上提供 KVM 和 OpenStack 等服務但其優勢並不在此。同時 Nutanix 採用的是硬體鎖定的策略。相信接觸過 Nutanix 的使用者都知道這種硬體鎖定的成本非常昂貴,其擴容只有購買指定硬體一種途徑。

10、效能如何?比如單臺伺服器,大概什麼配置能提供大概多少 IOPS ?

答:這取決於單節點的配置。 如果只看考慮 IOPS 。 那麼在 12 個 10K SAS 盤的情況下,可提供約85000 的 4K 隨機讀 IOPS 。 更多的磁碟有助於提高效能。 但我們也不推薦單節點 48 盤這樣的方案。 密度太高這無異於增加了節點故障時影響的 VM 數量。

11、您建議節點分佈在不同機櫃,請問可以延伸到數公里或數十公里佈署嗎?
答:這取決於網路延遲,採用光纖直連的話,10 公里的問題不大。青雲QingCloud 公有云的北京三區分為 3 個同城的高可用資料中心,目前就是採用光纖直連的方式構成。

12、軟體定義儲存採用的核心技術是哪家?比如 VSAN ? 還是自研?備份機制?消重支援如何?

答:青雲QingCloud 的所有主要技術均是自研的,100% 屬於自主可控產品。提供資料快照功能和全備,增備等功能。

目前不在塊儲存上提供消重功能。 這類功能是需要佔用 CPU 資源的,伺服器本地的硬碟已經足夠便宜,從成本來看並不值得消耗 CPU 去做消重。這些 CPU 資源更適合釋放給 VM 和 SDN 使用。另外分散式系統的依賴於資料的冗餘來提供更高的可用性,消重其實更適合集中儲存裝置。

13、第二代和第三代的超融合,能否從使用者使用的角度解釋下?

答:第二代超融合的核心在於提供分散式儲存功能,只是用於替換集中儲存方案。第三代超融合,提供了完整的雲端計算環境。使用者無需再購買伺服器虛擬化,網路虛擬化,雲服務平臺等軟體。 實現了開箱即可提供雲端計算服務的目的。

14、採用萬兆網路交換機還是infiniband交換機?

答:目前主要採用萬兆網路互連。

15、為什麼 1.8 寸的 SSD 在伺服器領域沒有流行呢?

答: SSD 的壽命和效能和容量是有關係的。越小的 SSD 效能和壽命也越小。而且這種小眾的產品沒有成本優勢。

16、請問是一份資料同時在三個伺服器上寫嗎?單個伺服器的磁碟還做 RAID 嗎?

答:這個可以根據需要使用單副本、雙副本還是三副本。這是成本、效能、可靠性的平衡。可以依據不同的業務需要部署不同的副本策略。例如,我們提供的物件儲存服務就是預設 3 副本。

單個伺服器磁碟可以選擇做或者不做 RAID 。我們建議做 RAID 並配置快取和快取保護模組。這樣有利於提高單節點的 I/O 效能。另外我也建議採用直通背板的伺服器。這樣 SAS HBA 可以為每個硬碟提供至少 6Gb 的頻寬,並且有助於降低 I/O 延遲。

17、超融合能實現資料容災功能嗎?
答:青雲QingCloud 超融合可以實現本地及異地資料容災。 並且可直接利用 QingCloud 公有云實現資料容災,而無需使用者真正去自建或租用資料容災的資料中心。使用者可以將私有云環境中的資料,備份到 QingCloud 的公有云。