1. 程式人生 > >孫杰:“企業雲化2.0的深度思考與實踐” – 運維派

孫杰:“企業雲化2.0的深度思考與實踐” – 運維派

由工業和資訊化部指導,中國資訊通訊研究院主辦,業界知名組織雲端計算開源產業聯盟(OSCAR)承辦的2017全球雲端計算開源大會於4月19日-20日在北京國家會議中心順利召開。本文為本屆大會嘉賓分享的PPT內容,敬請瀏覽。

嘉賓介紹:孫杰 

公司職務:北京中油瑞飛資訊科技有限公司資深架構師

個人簡介:IT從業十餘載,專注於系統、雲端計算和資料中心管理,目前擔任北京中油瑞飛資深架構師,參與實施資料中心建設、私有云架構規劃及運維管理等相關工作,在若干大中型專案的建設和部署運維中,積累了豐富的架構設計、專案實施和一線經驗。OSCAR專家,IT技術十大傑出博主,51CTO學院認證講師。

大會演講速記

很高興來到這個會場跟大家分享我們企業在雲化2.0的實踐經驗,這場分享我以技術的名義來一場真誠的分享。伴隨著IT新技術的發展,像虛擬化、雲端計算和大資料對大家來說已經不再陌生了。

在企業裡面資訊雲化實施的時候,各種新的技術在優勢顯現的同時,其實我們也發現隨之而來帶來的問題也比較多。有的時候我們反而感覺上了雲之後,我們面臨的問題反而越來越多。有時候我們沒有感覺到輕鬆反而更累了。問題出現在哪兒?我們IT是變得簡單還是複雜了。我們的思維是否還禁錮在傳統的IT和傳統的固化模式裡面。下面我這片子將為您展示我們在雲化過程當中的思考與實踐。

我的分享分為三個部分,第一個就是企業雲化演進的階段分析。第二是我們在雲化2.0面臨問題與思考以及我們的實踐。第三是企業雲化的未來展望。

我們看一下雲端計算,雲端計算其實從2006年出現到現在已經經歷了大概10餘年的時間,最早大家知道06年穀歌有一個101計劃正式推出雲的概念,當時是谷歌的克里斯朵夫(音譯)向當時CEO斯密特提出自己的雲端計算的想法,得到了斯密特的認可,谷歌推出101,正式有了雲的概念。

我們後來看到KVM這種虛擬化是在07年進入到了Linux核心,我們又看到LXC是在2008年就釋出了第一版,大家看到現在的容器比較火,最早也是源於LXC。HyperV,微軟虛擬化是在08年釋出。緊接著VMware2009年推出Vsphere。我們再看到CloudStack於2010年開源,這個也是咱們現在開源的一種。當然現在明顯大家感覺勢頭沒有Openstack火,Openstack是2010年由NASA和Rackspace發起。在這個時候,其實大家看到中國企業的市場,其實大家對於雲還沒有是完全的一種新的認識。

大家可以看當時的報道,2011年的時候李彥巨集說雲端計算是新瓶裝舊酒,當時騰訊總裁說雲端計算實現像水電一樣的基礎設施至少上百年。當時馬雲說阿里如果不做雲端計算會死掉,但是我們現在看阿里雲的發展在國內已經佔到了雲端計算市場31%,成為中國的領軍企業。這種發展趨勢和我們對雲端計算認識直接決定你在雲端計算市場發展的地位和你發展的前景。

雲端計算

技術落地期,從2010-2015年,雲端計算得到了飛速的發展。私有云開始興起。中油2012年底提出要搞雲端計算,2013年正式起步雲端計算。現在我們規模已經達到了將近15000臺虛擬機器,5000臺物理機的規模。混合雲這時候風起雲湧。

第四個特點雲端融合是一種新的趨勢,看現在的移動化的網際網路發展也是非常的迅猛,Openstack得到了廣泛應用和推廣,很多雲計算創新企業大部分也就是帶這個時候開始起來的。像九州雲和其他創新企業,大部分都是在這個時候開始起步。軟體定義成為共識,大家覺得都應該通過軟體的方式能夠更好把硬體管理起來,實現效率最佳化,實現資源利用的最大化。

我們看未來十年,從2016-2025年,這個期間又有什麼樣的特點?這期間大家發現國家出臺了很多相應的一些檔案。無論是習大大在一些會議上說,還包括最近出了雲端計算三年行動發展綱要都對這個事情給予了相當高的重視。第一開源技術生態將會成為行業技術發展的一種重要力量,雲端計算進入了一個新的繁榮發展期。第二,基本上現在大家都已經認可雲了,很多單位和企業已經有了雲的基礎設施,這時候有一個重要的特點就是由以前的基礎設施為主轉向支撐雲的應用和服務為主這樣一個主要的變化特點。第三現在的企業是雲化的主角,行業雲將成為雲端計算的主戰場。

你從什麼樣趨勢可以看出來?大家看到現在很多以前搞公有云,像阿里雲,AWS,再像其他一些有云都在向傳統企業進軍,因為傳統企業是未來雲化的主角。他現在在雲方面的投入將會一年比一年多,而且遠遠比中小企業投入要更多。第四個特點就是人機物融合,而且萬物互聯時代到來。這樣的時代雲端計算成為一種重要的基礎,而大資料是一種提供重要的佐料。我們人工智慧是建立在雲端計算和大資料這樣的基礎之上。

再來看企業雲化演進的階段分析,在我們從2013年開始建立自己的私有云到現在已經走過了三年,我們對過去三年用了六個字總結,就是由分散到集中再到整合,在以往是分散的。不管是在以前的能源行業還是在以前的製造業業務系統都是分散在各個部門,由不同的部門來進行主管你的業務系統。

到了雲之後,企業是強制各個業務系統都要上到雲之上來,這個時候是實現了一種簡單的集中。集中之後,還有一個必須要走的路就是要整合,因為你的各個系統都上了雲之後,怎麼能夠在雲的大環境下能夠讓它更好的執行實現最佳的效率。

你要把它進行統一排程,統一管理,這就必須面臨一個整合。包括你機房的整合,IT裝置的整合。大家看我們把伺服器收歸到一塊實現計算資源統一管理,把儲存裝置收歸到一塊實現儲存資源的統一管理。這些裝置整合之後,我們在上來建立了自己的雲平臺,進一步把下面的各種裝置,各種資源池統一進行納管。再往上面就要把企業內部的一些計費系統、視訊會議系統還有其他一些視覺化運維,包括一些資料完全整合起來。這叫我們的CT能力的整合。

再往上走就是業務平臺整合,統一門戶、虛擬桌面、OA、ERP、CRM和HR系統都要整合在整個雲平臺之上,大致你回顧一下你的企業雲化之路也是走過這三個階段,從分散、集中到整合。

企業雲化

在雲化1.0裡面,我們思考經過討論總結了四點。第一個雲化1.0這三年來我們到底做了一些什麼事。第一點就是統一規劃,我們對軟硬體資源實現了統一規劃。企業的IT實現了高效管理和資源整合。

在以往他各個業務部門都可以報自己的需求,我要採購多少伺服器,採購多少儲存。往往他的需求都是超量,他的裝置存在大量浪費。某的業務系統一下買了50臺、100臺伺服器,每個伺服器利用率只有20%甚至10%以下。對於企業來說造成了巨大的浪費。

在雲上最主要一點是實現統一規劃,第二點是按需分配,我們按照虛擬化的技術,通過雲平臺的智慧排程和均衡演算法,我們按需分配。你這個業務系統需要多少資源我給你分配多少。提高資源整體利用率,實現資源價值最大化。我這個儲存可以分給若干業務系統,大家可以合理規劃自己的儲存,雲上統一監管你的資源使用率。

第三點互聯互通是非常重要一點,各個業務系統在雲裡面他們之間企業的業務系統之間都是有互相的聯絡,包括有的是前偶爾,有的是鬆耦合,都有很大的聯絡。這時候資源實現互聯互通之後,就為企業今後實現大資料和應用的整合打下了良好的基礎。

第四點就是要統一管理,我們看到很多包括參加其他的會議,聽到很多嘉賓的分享,做什麼事?實現統一管理,統一監控,統一排程鏈,統一你的流程和事件管理平臺,統一你業務的服務。這個雲上資料的統一管理,為企業的資料備份和容災也提供了基礎。也更加適合我們管理和擴充套件的要求。雲化1.0主要就是這四點。

企業雲化

未來雲化2.0,企業下一步將要實現什麼?綠色運營—資料智慧—開放架構。

為什麼要提綠色運營?大家知道資料中心每年IT基礎設施我們就不說別的,我們就說它的電,這個電非常大的一個消耗,一臺伺服器平均一年製冷+用電費用一年需要一萬塊錢。你有五千臺,就是五千萬,這是多麼大的一筆開支。

第二是資料智慧,你的IT與DT業務平臺整合,機房資料系統整合,業務資料分析系統,大資料分析系統資料整合。都需要你做資料的智慧分析更好使我們的業務系統最優化執行在我的雲平臺之上。

企業級雲平臺要求你什麼?要有很高的擴充套件性,藥業很高的安全性,為什麼企業要建私有云,因為安全性相比你的自主可控要更加重要。所以很多大型企業必須要建自己的私有云,而不是把自己的業務全部放在公有云上。

另外一點開放相容,開源東西非常多,技術發展也非常快。企業以前用的傳統商業軟體反而進步比較慢。現在很多傳統企業積極擁抱開源和走向開源,開放架構也很重要。大致你來看企業雲化2.0主要就是這三個方向。

我們看2.0面臨的問題和思考,第一是綠色運營,綠色運營現在大家知道環保是一個非常重要的課題,看國家重要很多領導人的講話都提到了綠色發展和綠色運營。在未來幾年成本壓力以及法規遵從以及社會企業責任推動下,企業IT必定走向節能減排的行列。而且還強調去炭化,去煤炭,今後走向清潔能源和走向太陽能。你看到能源企業面臨壓力非常大。伺服器虛擬化前後的耗電也也明顯的區分,伺服器消耗額定功率一般是50-67%的電能。空閒伺服器也要消耗30-40%的電能,這都是很大的開支。

PUE

我們看某資料中心用電量統計和相應的PUE。7、8月在比較炎熱的季節可以看到它的PUE值比較高的。1.76、1.64,到9、10月向下降,1、12月比較冷的時候,PUE值是1.35到1.33。平均每天用電量可以看到基本是一萬多度。對企業來說是很大的開支。

業界

業界探索有集裝箱式的資料中心,還有微軟的海底資料中心,包括Facebook在北極圈建立自己的資料中心。業界國內遊阿里在千島湖搞水冷資料中心。最近前期我們看到在微信朋友圈裡面轉的比較多的阿里的浸沒液冷伺服器叢集,PUE值可以逼近極限,1.0。這是非常好的探索,這些能夠圓滿實現,對資料中心節能來說是很大的福音。

雲平臺

企業級的PaaS雲平臺,企業級的雲平臺裡面,我畫了立體圖,可以看到以最下面的計算、網路、儲存到了上面這一層你要實現你的網路管理系統、計算管理系統和儲存管理系統。雲平臺這塊不管是計算網路和儲存,你在建立虛機的過程當中它是統一服務的過程。你建立虛機的時候分配網路資源,這些都是一體化一步到位,講師講我們的雲可以一步上雲,前期把這些資源做好了,一步上雲是可以實現的。

PaaS平臺

對傳統企業來說你的PaaS平臺設計需要什麼功能?雲化的關鍵點是什麼?上雲如何進行改造,都是你在企業雲化過程當中必須要思考的問題。一種平臺是否可以解決所有運用,有的是用VMware商業平臺,有了Openstack之後,怎麼把兩種平臺進行對接和互動。這裡面臨很多問題需要我們去思考。

對企業來說你的平臺設計需要什麼樣的功能,我們經過這些年的實踐總結出來一個總的原則你要根據業務需求和企業的使用場景來決定你的平臺應該具有什麼樣的功能。很多時候你發現很多廠商在做產品的時候只想到自己的產品可能需要什麼樣的功能,他沒有對企業的實際需求進行調研。你這樣做出來的產品可能就不適合企業。大家知道有一個成語叫削足適履,你的產品能讓企業削足適履嗎?肯定是不可能的。你必須要按照企業的足進行量身定製來做你的產品,你的產品才能最佳匹配企業需求,才能獲得企業付給你的價值。

上雲的次序,先外圍後核心。一般沒有哪個企業敢把自己的核心繫統先上雲上,沒有人敢貿然做。第二先新後舊,先把這兩年新的業務系統可以考慮放到新的平臺,包括Openstack這樣的開源雲平臺。但是以前舊的業務系統,一些比較龐大的不管是技術人員還是領導,都不敢去拍板說直接把它拿來放到開源雲平臺上,企業要追求最大的穩定性。

第三就是先小後大,先把小的系統放到雲平臺上,來驗證你的執行效率,然後再逐漸把大的業務系統依賴關係比較複雜放到雲平臺上。你的功能要實現介面個性化,雲平臺的管理員和資源使用者包括業務的管理者,你看到介面應該是不一樣的。我作為雲平臺管理者,我看到這裡面所有業務系統佔用的資源包括你的計算和儲存,你作為業務系統的管理員,只能看到你這個業務佔用的計算資源、網路資源和儲存資源,這是完全不一樣的介面。

然後要支援執行和開發中間件,很多業務有自己的中介軟體,你是否可以相容。其次支援開源的工具和軟體,為什麼支援開源的工具和軟體?很多業務系統使用開源的資料庫,以前的商業業務系統比較多的使用Oracle。支援多租戶的SAAS引擎,支援多種服務的開通能力。

在雲平臺上都可以一鍵實現,統一監控、統一計費,統一使用者許可權分配。你感覺起來很簡單,真正去做發現這裡問題很多,不是你拿來一個產品就能完全匹配企業的需求。很多產品我們都拿過來測試,包括阿里專有云,包括華為雲,我們都拿來我們機房進行測試。

我們發現很多問題,像阿里的專有云,是依據阿里的業務發展起來,是作為一種技術輸出,對外提供一種專有云的服務。但是他的專有云平臺依據他的業務發展起來,他是依據能源業務發展起來的嗎?不是。所以會發現他有很多不同點。這裡不同點在這裡不一一介紹,你真正測試過有很多,他的網路有吞吐限制,包括平臺管理架構有很多虛機不可建,有很多問題。這些問題你看起來不是,他看起來不是問題,對我們企業的管理者來說,這些地方是問題。他不是完全適合我們的業務和我們的管理想法。

下面我們看一下VMware和Openstack對比,為什麼我們堯趨對比這個東西?因為現在Openstack已經成為實施開源的雲平臺標準,很多傳統企業大型企業都在積極擁抱Openstack,但是原有VMware的業務,執行在VMware上已經很穩定,包括業務系統的人都沒有特別大的動力想要換到Openstack上面來,你怎麼實現業務系統的遷移?不同雲平臺的遷移?

我們需要做一個詳細的測試和POC。經過這些測試和POC,我們得出以下的結論,第一個綜合比較Openstack在設計方面七分,VMware九分,為什麼這樣說?VMware是一個商業產品,它的各個效能是經過這麼多年企業不同虛擬化場景實現,VMware產品09年有了,到現在有8年時間。而Openstack真正的推出應用到企業裡面才幾年時間,最多也就三四年的時間。它經歷場景考驗肯定沒有VMware多,VMware很多功能的設計是要超過Openstack的。

第二是功能,功能上可以看到Openstack佔6分,VMware9分,在使用場景上VMware和Openstack是持平。很多場景可以使用VMware,可以選擇Openstack,這是完全沒有問題。另外就是價值,從價值上看Openstack得了10分。怎麼去看這個問題?Openstack是開源產品,它的各個元件更新和變化都比較快,它未來的生命力肯定是非常強的。從它的發展趨勢和生命力上我們認為可以得10分,VMware是9分。

功能看,我們看虛擬機器生命週期管理非常重要,虛擬機器從建立銷燬中間有一系列的管理,生命週期管理。至少我們看一下VMware和Openstack都有。但是虛擬機器高階特性,VMware會比較豐富一些,不管是它的HA的實現,DIS的實現等等都要好於Openstack,可以通過測試發現。

Openstack的高階特性不能說沒有,也有,但是比較少一些。包括虛擬機器的高可用,你經過測試發現。動態資源管理VMware比較豐富,Openstack有,但是比較少。

最後我們從可靠性上來看Openstack是中,VMware是高。我們得出這些結論不是說隨便畫一個表格放在這裡給大家看,我們經過大概三到四個月比較詳細的POC測試才得出這個表,另外穩定性VMware比較高,Openstack的運維複雜度比較高。

曾經有朋友做Openstack的遷移工作、升級工作,他當時跟我說一個笑話,客戶說升級我在兩小時給你搞定,客戶說兩小時少了,我給你五小時。結果這個升級五小時都沒做完,廠商花了10小時把升級做完了。

大家知道Openstack升級和運維比較複雜,沒有VMware簡單。VMware的升級,大概只需要一個小時甚至半個小時升級完,但是Openstack的升級你半個小時能搞定嗎?肯定搞不定。另外桌面雲的支援Openstack一般,VMware比較好。使用成本Openstack是比較低。有時候也不低,你買商業產品,公司生產特別定製版也有比較高的費用。VMware主要是Lenss(音譯)費用比較高,他每年Lenss(音譯)費用上千萬,幾千萬,這上面來看它的費用比較高。

雲化

雲化的關鍵點主要是五點,第一個系統的彈性伸縮,你的業務不斷的變化和發展,彈性伸縮相當重要,我們能夠自由線上擴充套件。另外應用叢集化部署,我們儘量能夠做到分散式而不是集中式,你一旦集中式,你某個資源比如你的儲存資源出現問題,你的應用就會大面積不可用。

另外應用與資料分離,儘量不要捆綁在一起。資料分散式部署,我們現在都提分散式,不要把所有的業務系統都放在一個儲存上,放在一個相應的區域之內,這樣才能實現你的高可用。另外資料的平臺化,你通過平臺化之後,可以減少很多人工的不必要的錯誤。

很多時候我們做運維很多人肉,然後自動化指令碼,把指令碼放到平臺裡由平臺統一操作和排程,減少很多中間環節,使用起來非常快,非常方便。如何改造,將應用進行梳理,將不同應用分類,底層採用不同叢集支撐。比如把業務分為計算密集型,IO密集型,同時綜合考慮波峰波谷和業務特性根據這些來進行配置,你才能實現資源最合理的利用。

資料智慧

資料智慧,我們經過一些部門專門的研究發現,最重要你要是能夠合理採集到不同的資料來源,包括內部和外部的。像外部公開來自於淘寶、京東、公司網站、社交媒體資料。內部你們自己的行為資料、運維資料等等,把這些資料都採集過來之後抽取放到一個知識庫裡面,最後把這些資料進行相應的建模,再根據你的業務需要來做相應的資料探勘,最後把這些資料總結出來作為規律的認識作為價值的傳遞。

開放架構

這是將來雲平臺建立之後需要重點做的一步,你各個業務上了之後,資料業務要集中,資料集中之後很多還是層級。你怎麼能夠把資料資源調動起來,能夠讓它實現在流動過程當中,在動態過程當中能夠實現資源最佳配比和優化利用。這裡要通過一些資料分析軟體來讓資料更加具有智慧,這也是今後大資料要發展的方向。

我們看到市面很多企業的大資料產品,基本就是前端展示和監控類和日誌分析類,真正用到企業裡面你發現沒有特別好的產品,這一塊還有很多技術點需要突破。

再有開放架構,相容幷蓄,軟體定義,擁抱開源,聯合創新,這是我們領導提出口號,我們跟開源企業積極合作。

架構

架構雲化2.0我們有幾個思考跟大家分享一下,第一架構角度再思考突出問題,我們發現重點的問題就是產品堆積,缺乏架構設計。你建了雲之後,不是簡單把虛擬化,包括你監控這些東西堆積起來都放到雲上就可以了,對你的業務和整個資源進行合理的架構設計。雲衣服要有配比,上面穿什麼,下面穿什麼,鞋子穿什麼,不是你隨便穿就好看,它有一個合適的搭配。

在雲平臺裡面也是一樣,我們買了很多產品,又買了VMware,買了這樣那樣的儲存管理系統,我們發現這些商業產品都是各自按照廠商自己的想法設計。沒有按照我們的需求來統一定製,我們也沒有對他進行一個比較深的思考。我們在雲化當中發現突出的問題,產品堆積,缺乏架構設計。如果有廠商你能夠看到我們的問題,你設計的產品肯定就能獲得企業使用者的喜愛。

架構

那些架構裡面踩過的坑,第一是虛擬機器的跨平臺遷移。VMware的VSphere平臺虛機跨平臺遷移到KVM環境中,發現問題出現在哪些方面?像驅動,你在VMware裡面很多驅動是專有,你把它放到Openstack平臺裡面會發現你的驅動完全是不適應的。你在VMware平臺裡面,在KVM平臺裡面跑不起來。

另外快照,你把VMware裡面虛機移到KVM環境快照丟失,網路環境不一樣。VMware裡面有分散式和虛擬交換機,把它移到Openstack環境裡面會發現網路很多地址需要自己重新配。不是買一個虛機移過去就可以了。再一個是磁碟檔案,VMware可以建多個磁碟檔案,遷移到Openstack把相應磁碟檔案合併,多個遷移過去非常慢,有時候會丟磁碟檔案。像磁碟格式,像你的VMware是什麼樣的格式,你遷移過去因為你的磁碟不一樣,很可能一下起不來。這些問題如果你意識不到,你做兩種平臺的融合中間會有很多問題你解決不了。

第二延時對於叢集的影響,Rac的節點驅逐,OSD死掉有很多的問題,這裡不說了。虛擬化大流量網路,巨型楨的開啟。你在虛擬化的環境裡,有時候為了提高效率,加強後端的效率需要改為9000,你不改你的測試效率和實際效率都會比較差。分散式的雙活和容災,Openstack的方案對於企業真正的雙活和容災相差較遠,虛擬機器上跑資料庫,是否能跑資料庫,我們經過很多探討。

去O的思考,今天不在這說了。後面可以看我們的PPT。

管理角度主要是關於CMDB的思考,CMDB在大型資料中心裡面是非常重要,很多時候你需要對它資源有一個合理的定位和評估,在這個時候像很多企業裡面做的CMDB很靜止,你更新比較麻煩,很多都是手工。我們希望實現一種自動採集和動態更新,包括你的裸機、虛擬機器和容器,資源排程和安排,能夠很好的融合在雲平臺裡面。

運維角度主要是自動化和標準化。開發角度主要是你的企業文化和流程再造,像DevOps在這階段提的比較響,實際上它在傳統企業裡面不是一個熱點,因為你DevOps不光是開發和運營之間相互融合過程,也要體現你流程和各種企業服務改造上面才能很好的把DevOps用起來。

安全形度資訊保安和自主可控對傳統企業來說是非常重要的強新需求,這裡有典型事件不再一一說了,經常關注技術的人都會了解。近年網路隔離,還有爐石傳說,還有AWS宕機事件,愚人節的北郵機房之火。

企業雲化的總結三句話,不以解決問題為目的的系統都是偽裝系統、耍流氓。第二搭建完善的企業IT系統需要多維度進行考量,絕非一蹴而就可以解決的事情。第三一種架構或一個雲產品不能解決所有問題,你的產品都是有各自使用的場景。任何產品不可能解決一個企業所有的問題。

企業雲化的未來展望,分享幾張片子,大概思考一下我們企業對它們的認識。

雲端計算

第一個是基礎設施雲端計算進入商業應用關鍵階段。雲端計算高可用、容器技術和雲端融合是將來發展的方向。

傳統企業

其二傳統企業的數字化和智慧化上升到國家層面。現在中央領導們都在一些重要的會議上強調加快資訊科技的建設,推進網際網路和實體經濟的深度融合,加快傳統企業的智慧化和數字化。

其三我看到一句話,當時感觸非常深,跟大家分享。他說即使你什麼錯都沒有,錯就錯在你太老了。因為現在技術發展太快,傳統企業有時候跟不上形勢有時候也會死的很慘。企業在這個時代的焦慮和尷尬,無疑來自我們正在經歷各種商業革命和技術革命。過去不再成立,未來看不清晰。比被征服更為可怕是你不知道被誰征服。

時不我待,加強合作,提升能力。最近很多分享我們都看到大家強調一個認識IaaS公有云的機會已經結束,現在大量發展私有云。解決私有云技術能力是關鍵,面對一個行業的垂直領域現在還在探索階段,我們抓住機遇,抓住企業的市場。

最後企業的未來是雲端計算+大資料+商業智慧。最後我的結束語未來已來,預見才能遇見,悟到才能有道,謝謝。

文章來自微信公眾號:雲端計算開源產業聯盟