1. 程式人生 > >揭祕騰訊資料中心十八年建設及運營實踐

揭祕騰訊資料中心十八年建設及運營實踐

2000 年,騰訊第一個 IDC 在深圳東門建立,2012 年 9 月,第一個微模組資料中心在寶安落地。這中間,騰訊又相繼建立了異地 IDC、海外 IDC、還包括自建資料中心和超大規模資料中心的上線和交付。十八年,騰訊在資料中心建設和運營上積累了一系列的實踐經驗,也在自主設計、自主建設領域已經取得了豐碩的成果。

騰訊四代資料中心的發展

  • 騰訊第一代資料中心在 2006 年前後起步,採用的是傳統的電信解決方案,資料中心 PUE(能效比)在 1.6 左右;
  • 第二代資料中心以天津資料中心為代表,全面轉向超大規模資料中心的建設,該代資料中心為 UPS 架構,採用了當時國際上最為先進的自然冷卻等節能技術,PUE 降至 1.4;
  • 從 2012 年開始,騰訊開始自主研發以“微模組”為核心技術的第三代資料中心技術 TMDC;
  • 2015 年底,第四代騰訊資料中心 T-Block 技術正式推出,目前該代技術還僅處於試驗階段——進行不同環境下(如:南方溼熱環境,西部涼爽環境)的小批量部署,驗證間接蒸發冷卻技術在不同環境下的節能效果,它帶來的直接好處就是讓資料中心標準化、模組化,效率更高,PUE 更低,快速地滿足市場的需求。

據瞭解,去年 4 月,騰訊在貴陽建設了 T-Block 的試點專案(其內部稱之為“T-Block 西部實驗室”),通過此來驗證 T-Block 的建設方式和其技術性能。西部實驗室由八個模組組成,驗證不同模組拼裝實現的方式。未來 T-Block 技術將會規模化的在上海、深圳等地的資料中心投入實際運營。

在 TMDC 技術上,騰訊攻克了在建設成本、高壓直流供電對 IT 裝置的風險、與行業規範相容、租電分離計費模式等一系列的難點,採用了通道封閉、高壓直流、列間空調、簡化的配電結構、氣流組織優化等一系列節能環保關鍵技術。TMDC 的技術架構中,每個微模組都包含自身的配電、空調、消防和監測系統等,可以認為一個微模組就是一個微型的資料中心。同時,微模組也是一個完整的產品,像伺服器一樣,微模組的所有元件都在工廠預製和測試完成,到資料中心現場拼裝完成即可投入使用,部署時間最短僅需要兩個星期。

另外,相對於第二代資料中心,TMDC 還實現了去 UPS。作為一種體型龐大、操作複雜的供電裝置,UPS 在資料中心內使用存有惡性事故隱患,通過“去 UPS”,TMDC 解決方案有效提升了資料中心運營整體的安全性。在 TMDC 解決方案中,伺服器供電變成了市電直供加直流系統備份。

騰訊第三代資料中心 TMDC 技術組成

騰訊第三代資料中心 TMDC 技術組成

到了第四代 T-Block 資料中心的執行,騰訊主要基於兩點技術實現更好的能效和效能:

1、製冷系統採取間接蒸發冷卻,配電系統繼續沿用騰訊目前比較成熟的市電 +HVDC;

2、通過標準模組化的供配電,短距離的熱量傳輸路徑。

去年年底,有媒體曝光過 T-block 資料中心的外觀,其外表雖然看著是集裝箱,但內部已進行大量的改裝。它由若干個集裝箱體拼接而成,包括了辦公箱、供電模組箱、兩個 IT 模組箱、製冷模組箱 A 和製冷模組箱 B 等。據瞭解,T-block 核心思路在於通過產品化手段解決資料中心建設問題。而這種思路也更貼近資料中心本質的功能屬性:快速響應業務需求,提供一個穩定可靠的 IT 裝置執行環境。

隨著技術的不斷成熟,騰訊資料中心的 PUE 值也在一次次的突破“極限”。騰訊第三代資料中心(TMDC)已經在騰訊自有業務和騰訊雲業務上得到大規模應用,目前承載的伺服器量超過 20 萬臺,實測平均 PUE 值 1.35 左右。2016 年 4 月,工信部電信研究院對騰訊 T-block 進行了 24 小時不間斷帶載測試,測得日電度 PUE 值為 1.0955,是工信部資料中心標準化測試中最佳的測試結果。

青浦資料中心三聯供技術解析

除技術上的演進外,近年騰訊 IDC 平臺部在資料中心新能源領域也進行了最新的嘗試。上週四,記者隨行來到騰訊位於上海的青浦合建資料中心進行參觀,也見證了騰訊在資料中心上的多項技術嘗試與創新。整個青浦資料中心園區的規劃包括:四棟資料中心樓、一棟配套業務樓、一座 35KV 變電站,一座三聯供能源站,總共可容納 10 萬臺伺服器。位於一號資料中心樓的微模組資料機房,內有電力室、冷機房等重點基礎設施。體現了模組化資料中心新的運營理念,和自動化監控管理模式。

這裡再重點說說三聯供能源站相關技術:

目前國內三聯供的應用場景大致可分三類:第一類對三聯供的要求較低,體量較小,典型的代表是一些辦公園區;第二類場景規模體量較大,對三聯供的持續性要求較高,典型代表是大型的工業園區;第三類除了體量大和持續性要求,還加入了對穩定性和突載入的要求,典型的代表就是資料中心。所以騰訊認為三聯供是資料中心的實踐,它代表成熟技術在新領域的應用。

在資料中心應用三聯供技術,原因主要由二:電是資料中心最為主要的能源需求,在對電以及通過電產生冷供伺服器採用上,三聯供可通過燃氣啟動發電機,同時採用溴化鋰機組將供電產生的餘熱回收製成冷供資料中心使用;其次是相比煤資源,三聯供使用的清潔能源可以減少碳排放,實現綠色的資料中心。相對於傳統資料中心標準的兩路式電和後備電,青浦資料中心引入三聯供製冷和供電能力,可以形成三者備份、補充的架構。

騰訊青浦資料中心主要承擔了騰訊的遊戲、微信等 To C 業務以及大量的 To B 業務。為保證資料中心整體的穩定執行能力,三聯供在落地實踐過程中也經歷了大大小小的考驗。例如,電供冷和三聯供製冷對接,導致整個系統非常複雜,為了和市電錯峰執行以達到更高的效果,整個供電中心的製冷需要進行兩次切換,一次切換是在早上六點,另一次是在晚上十點,每一次切換對於資料中心的執行都是嚴重的考驗。

面對一系列的考驗,騰訊建立了一個體系和完善流程,從而確保三聯供和資料中心產生 1+1>2 的效果。比如騰訊資料中心的高溫裝置巡檢,使用熱成像儀對高溫裝置監控來減少隱患,這樣的改進可以有效的發現三聯供在執行中的隱患。通過 7 大類共 52 個應急預案以及對相關人員運維水平和熟練度的各類演練,青浦資料中心可以有效降低三聯供技術故障對業務帶來的影響。青浦三聯供執行至今,大大小小一共進行了 50 餘次的演練,平均每週要進行兩次演練,電製冷和溴化冷也進行了 200 餘次。

此外,在新能源探索和使用上,青浦資料中心還佈局了將近 3000㎡的“光伏發電”系統。在參觀時,騰訊資料中心高階工程師李典林也表示,未來騰訊或許會將資料中心和三聯供技術進行結合:讓三聯供能源站內部對白天兩者產生的電量進行調配,用光伏發電所產生的能源供給水泵等裝置的消耗,從而不對整個“電池子”的總容量形成大量消耗。包括如果在未來加上儲能電池,並將夜間低谷期的能源儲存在電池中,即可作為“光伏發電”系統之外的另一大供電渠道。

據騰訊的相關統計,“三聯供”投產後截至目前,平均每年節省標煤 3500t;CO2 排放量減少 2.33 萬 t,減排約 48%;節能率超過 18%。“光伏發電”設計年均發電量也將超過 20 萬 kwh。

正如騰訊資料中心高階資料中心經理許均在 6 月 15 日“第三屆騰訊資料中心 & 雲分享日暨 DCD 騰訊合作伙伴峰會”上所說的那樣:“騰訊青浦資料中心,是用三聯供技術並投入商業運用的國內第一個中心,在技術上和商業模式上都有很多的創新和突破,未來我們還有很多工作要做,很多功課要做,我們還在路上。”

騰訊資料中心自動化運維的實踐

騰訊資料中心經過十八年的發展,積累了豐富的規劃、設計和運營的經驗,形成了清晰的技術發展線路。據瞭解,騰訊資料中心一直服務於騰訊自身業務,直到五年前才對外開放,並以雲服務的方式將這種能力開放給全行業。

在對技術探索的過程中,資料中心需要管理物件的數量、規模及複雜度也在呈現指數級增長,這對自動化運維管理也提出了更高的要求,傳統人工干預、保姆式管理監控與故障處理的方式已無法滿足業務需要。自動化人工故障修復機制、日誌和監控資訊集中管理與控制、大資料的機器學習機制都是資料中心常用的幾種現代運維新技術手段。

在騰訊資料中心的自動化運維實踐中,其自主開發了“Nebula”自動化平臺,對 IT 系統、製冷系統進行全覆蓋。目前,“Nebula”系統架構由四部分組成:資料中心服務管理門戶、資源管理門戶、運營管理門戶以及管控門戶,因此其精細化運營之路也主要從這四個維度來開展。

當有報警時,報警會自動被送到事件處理模組中,引導相關人員完成故障分析和任務分工,完成故障裝置隔離和恢復。其中頻發問題會被系統送入問題管理模組,跟進解決,經驗會被儲存到運營知識庫。例如在 2015 年天津 8·12 爆炸事件發生後,離爆炸中心不到 1.5 公里的騰訊天津濱海資料中心受損嚴重,在全部人員於兩天內撤離的同時,“Nebula”系統則持續進行著遠端無人值守,從而幫助騰訊將受影響的業務轉移到深圳的資料中心,通過了實戰的考驗。

在“DCD 騰訊合作伙伴峰會”上,騰訊資料中心平臺研發總監高江也為大家分享了騰訊資料中心在安防及視訊資料過濾、基礎設施運營及監控報警方面的一些實踐。

資料中心的視訊安防系統,主要會用於事後的問題分析和追蹤。在龐大的視訊資料中,騰訊會通過機器學習和識別等技術將風扇轉動等無用的畫面資料進行過濾,對其中近三成的真正有意義的資料重點關注。在整個視訊監控系統中,可以通過人像識別技術和智慧化分析技術來判定視訊中出現人物及行為的合法性。

資料中心的基礎設施都是相互關聯、互相影響的主體,一個裝置發生故障很有可能會導致下游一系列裝置連帶形成異常。因此,騰訊將基礎設施的模型建立起來,清楚地描述他們的關係,當其中某個裝置產生問題則可以進行固定定位,從而把無用的報警資訊或由主動操作產生的異常和報警資訊遮蔽掉。這樣,基礎設施報警精準則大大提升。

通過對資料中心運維海量資料的分析,利用大資料建模,自動化地、智慧化地挖掘出更多高價值的、運維人員認知範圍外的故障模式與系統優化模式,可以進一步提升系統運維的效率;通過大資料機器學習,對大規模運維場景下的效能與故障規律分析、趨勢預測及故障根因識別定位,可以提升機器自動化運維的能力,可以大大減少資料中心的人力投入。以 InfoQ 記者參觀的青浦資料中心為例,園區內需要巡視、維護、調控人員極少,除了在某些監控室及廠房,基本上是屬於無人看守狀態。

在專訪中,騰訊資料中心負責人鍾遠河也表示:“自動化是資料中心的必由之路,而實現自動化的第一步就是要採集資料,制定統一標準,並根據業務需求進行不同的工作角色分工。”

共建資料中心和諧生態

騰訊目前在全球佈局了 20 個大區、31 個可用區的整合資料中心,擁有超過 700 個 CDN 節點。“在支撐騰訊雲發展的過程中,我們發現雲對資料中心的需求也在分化,比較典型的有,公有云、混合雲(黑石、託管)、金融雲、高防雲。”鍾遠河提出。

在此背景下,騰訊資料中心根據業務特性,提供垂直細分領域的解決方案,在保障安全性的同時,助力數字經濟的多樣化發展。如黑石和混合雲的資料中心專區,重點從客戶 IT 裝置與基礎設施適配性需求考慮;而金融雲的機房,要求高安全、高可用性、在技術架構上更偏保守;而騰訊的高防雲和高防資料中心,定位於軍用級、高防護、高可用,為中國企業的核心資料和資訊打造一個堅固安全的保險櫃。

原文來自微信公眾號:細說雲端計算