1. 程式人生 > >彭華盛:“廣發銀行運維一體化之平臺一體化” – 運維派

彭華盛:“廣發銀行運維一體化之平臺一體化” – 運維派

由工業和資訊化部指導,中國資訊通訊研究院主辦,業界知名組織雲端計算開源產業聯盟(OSCAR)承辦的2017全球雲端計算開源大會於4月19日-20日在北京國家會議中心順利召開。本文為本屆大會嘉賓的大會演講內容分享,敬請瀏覽。

嘉賓介紹:彭華盛

公司職務:廣發銀行高階技術經理

個人簡介:廣發銀行總行資料中心運維自動化團隊、應用交易渠道團隊運維負責人

大會演講速記

大家好!前面幾個大佬都以產品角度來講運維,我今天以乾貨的方式跟大家分享一下我們在運維方面的經驗。首先做一個自我介紹,我是廣發銀行運營中心的彭華盛,我現在主要是交易渠道的負責,另外我也負責策劃。我今天給大家帶來一個議題是平臺一體化。

標題裡面有兩大塊,前面是標題一體化,後面是平臺一體化,我們的運維一體化是區域中心的運維裡面的運營體系,運維一體化主要分三塊,一個是人員組織的一體化,流程一體化,後面是平臺一體化,平臺一體化偏向於工具一體化,我今天給大家分享的是平臺一體化。

平臺一體化裡面可以會用三個方面跟大家分享,第一個是團隊轉型的需求,另外一個我們團隊在做轉型的時候的解決思路,第三個是我們在轉型的一些方案裡面的原則。我們重點會來講原則。

我們轉型的壓力其實和大家在座的一些運維團隊碰到的比較像,我們現在團隊裡面的運維打一個標籤“救火”我們都會有,所以我們歸納一下運維裡面目前的四個特點。

轉型

一個是被動救火式的,我們的團隊裡面大部分都是被動的保障業務系統,所以我們日常的工作會被擱置。我們也是一個以問題驅動的方式去做運維的,因為我們的運維口,我們往往可能對一些應用的可用性、可靠性和其他的生產問題來驅動。第三個,我們的日常運維主要還是以運維操作性的方式佔主要的工作量。第四個,我們是以經驗式的運維,尤其是有一些比較資深的老員工,他離職在短期內給我們的運維帶來一定的衝擊。

針對這四個特點我們提出了四個轉型:一個是我們從被動的救火式的運維方式向主動的機器化運維的方式。第二個是從問題驅動向價值驅動,價值驅動我們現在也在做大資料,做一些業務方面的驅動。第三個是操作運維,我們現在也在建一個自主化的開發平臺,通過這個開發平臺快速落地一些工具,來降低我們的作業系統的運維。第四個是我們希望靠人的經驗式的運維向智慧化運維去驅動。

自動化

但是大家也知道我們團隊人員很難去擴張,所以我們首先要解決我們的生產力,解決完以後我們才能去做我們的轉型,所以解決生產力最主要的手段是自動化。在自動化方面,我們也碰到三個問題。

一個是說怎麼更好,我們的運維體系也算是比較完整了,但是我們的工具往往是以商業工具,每個商業工具的功能都可能重疊度很多,這裡面也是以煙囪式的建設,很難實現資訊的共享,更不要說是一加一大於二,有很多時候一加一小於一的可能性都有。

第二個是如何更快,我們的工具也是拿來主義比較多,自主研發比較少。像我們這種傳統的銀行金融企業,我們要一個產品需要要走一些流程,把流程走完以後一年半載以後了,等我們拿到手以後可能不是最緊迫的運維工具。

第三個我們如何做得更重要,原來我一開始認為我們銀行是體制內的,後來慢慢發現我們團隊很有危機感,現在我們也在做一些團隊的合併,所以我們的壓力是比較大的。所以我們在想我們怎麼解決我們的職業危機的同時又創造更大的價值。我們就提出了我們接下來要做一個一體化,我們為什麼要提一體化?是因為我們希望我們的團隊,因為我們有比較多的專業團隊,包括我們運動的,包括基礎設施的,網路的,各個團隊大家是能夠達成共識,我們通過提出一個概念,把這個概念固化下來,所以我們提出了一體化。

一體化

一體化的規劃我當時也是有幾個觸動,裡面提到組織、流程、架構三位一體,這個和我們的區域中心的運維一體化的體系是比較吻合的。另外是剛才黨總提到的藍鯨,還有包括雲途騰科技產品平臺的一體化,給我們很大的指導。我概括講我們的一體化平臺有點像山寨版的藍鯨,但是這個山寨版更符合我們廣發的特點。第三個Google SRE對我們影響很大,我們怎麼做運維開發,怎麼讓我們的運維有更高逼格,這是我們在我們的運維建設過程當中的指導原則。

運維

我們的運維一體化,這是我們的架構,這個架構有幾個一體化,這邊是我們原先組織的一體化,這下面是我們的工具一體化,整個加起來是運維一體化,流程裡面也是一體化,我們的一體化運維平臺也是工具的一體化,我們整個體系都是以這個思路來建設的。

平臺

在我們的平臺一體化裡面,這張圖我是引用了李總的一個概念,我把它做了一個修改,我們的一體化裡面,我們從下面看,下面是6個平臺+1個門戶,我把這個理念已經傳播到我們資料中心的平臺工具的團隊裡面,基本上我們現在能夠把利益合在一起建設,避免重複的建設。一個從底層的雲平臺,像我們身上的骨一樣,中間是監管,我們的雲平臺是我們的管,流程平臺,操作平臺,再往上分析平臺,有別於業務大資料,我們和他們是平行的,業務大資料的精力有限,主要是做業務,我們的分析平臺主要是做運維分析。

我們整體兩邊還要建四個原則,一個是說我們要自主化,我們要做一個運維開發平臺,我們要做工具化,我們要提倡工具的文化,另外一套服務整合,採用一個匯流排固定在裡面,實現工具之間的互聯互通,再往上就是視覺化。

這是我們前面那張圖的細化,這個就不多介紹了,後面大家有興趣有可以看一看。

我現在主要講一下平臺裡的主要原則,一個是自主化,就像藍鯨也有一個研發平臺,但是它的開發平臺,我感覺我們人的能力用他們的平臺還是有限的,因為他要求你有比較強的開發經驗,要打包再上傳上去。

我們也去調研了一下開發中心那邊的常規軟體公司,現在很多公司有很多人不寫程式碼,就在一個ID上面拖拉拽,我們也基於拖拉拽縮所見即所得的平臺,我們的團隊中有工具建設的工具化,還有一個服務化,我們已經建了一段時間很難把這個工具廢棄掉,我們要整合現有的工具,來引入新的工具,實現資訊的互聯互通,這是我們服務化的一塊。

在視覺化方面我們也做很多投入,包括如何設計得好看,整體怎麼更好地整合,所以我們也花了比較多的心思。後面的原則我會放我們現在做的情況的一些圖,也是為了表達一些誠意。我們有自主化的開發平臺,這是我們的指令碼平臺,類似於這是一個指令碼工廠,指令碼可以再利用,我們現在也在用。

我們的管理人員是可以在這個工具上直接去做一些開發,上面這些是可以做測試的,可以做工程的指令碼工具。管理員是不需要去考慮我在哪裡去測試,什麼測試伺服器去測試,通過什麼去呼叫,這是我們以前很多開發人員在開發的時候遇到的難點,太困難了就不願意開發了,我們希望讓這種難度儘量降低。

我們那邊還有連指令碼不願意寫的那種,我們就想了一個辦法,像這些指令碼就是一個原子,我們可以把它拖拉拽動拉在一起,這三個我們已經上線了。這是視覺化的拖拉拽,一個是梳理流,還有一個頁面的視覺化拖拉拽的觸面,還有一個介面流。這個是視覺化前端的頁面H5,因為我們是基於H5的方案去做的,我們現在在上面做的東西可以在頁面裡面去展示。

在下面是業務流,你可能有一個工具,有一個按鈕,後期是怎麼呼叫的,黃色是呼叫服務介面的,這邊可以寫一些程式碼或者調一些指令碼,視覺化可以調指令碼,也可以調監控上面的資料,也可以直接連我在遠端的資料庫,這是我們的開發平臺。

自主化

外一個,我們希望我們的架構是自主的,我們的運維也是在我們廣發行第一次用到了分散式的系統,我們的業務系統比較謹慎,我們的運維裡面,一方面我們有這種需求,我們原來監控是以每一個應用+一個數據庫,但是我們發現我們的監控資料,當我們的OS大概到3000,我一個表很難儲存一個月,我們需要這麼多,所以我們又搭了一套類似的資料庫,這個資料庫是用的阿里的軟體,下面是17個數據庫,實現了分離,現在跑還是整體效能還不錯。

後面我們這套架構也是推動到我們的mycall流通平臺在用這個架構。

技術

這是我們現在在工具層面的技術站。

工具化

還有我們在建設工具化的過程當中,我們把工具分為兩大塊,一塊是重型工具,一塊是輕型工具,重型工具包括自動化部署、日誌系統,我們往往是以成熟產品為主。但是還有很多工具,應用資料維護,包括指令碼,包括運營活動的時候要快速給業務報表展示,我們是走的綜合人員能力投入產出比的因素,我們是逐步去做自主開發,後面會有一個例子給大家看一看。

我們的重型工具是集中監控,我們的集中監控基本上覆蓋了總行從基礎設施到系統網路再到應用可用性安全,還有分行的情況我們都已經覆蓋到了。

中間的工具我們也是比較多,我沒有讓一個工具實現所有的功能,我們只是說讓這些工具把他的事件能夠往上拋,跑到我們的平臺上讓它整合,再到上的平臺能力,再往上是智慧學習的監控。我們的監控主要原則也是不漏報、不誤報的要求。

我舉個例子,這是我們的集中監控的例子,我們可以把多個系統做整合,這是多種形式的展示,這是Web端,這是大屏,現在整大片有三個左右,我們的雙11運維活動都用這個。

這是我們把指標做一個平臺,比如像雙11的時候,我們的電子支付模組有30臺伺服器,我們可以放在上面,能告訴他到底是哪一臺出問題了,當出問題的時候,我們把這一臺停掉或者應用方案。

這個方案我們在很多活動推廣的時候,這個產品經常在用。我們也把監控下放到網點,原來監控在總行的伺服器,我們在分行裡面把分行的終端也都收上來。包括我們也把一些監控資料上收,借鑑360安全評分系統。這是分行資料收集的利用,這是我們對CMDB的擴充套件,我們把它擴充套件到應用題,我們把應用的關係圖也拖到裡面。

這是事件豐富,比如這個告訴我銀聯要交易超過多少筆,我們就把CMDB的資料評價,這是波動情況,這是CPU記憶體,包括最近半小時的事件,我們都整合在事件豐富裡面,這樣我們的管理員在處理故障的時候可以更高效。

工具化,輕量型的工具,我們借鑑工廠,我們鼓勵大家用這個工具,每個人做一個工具釋出在這裡,大家可以能去看。

小工具,我舉一個例子,我們三把斧頭當中的服務啟停,我們這些同學去做也做得很好,現在做的版本1,實現批量或者單個做啟停,啟停當中模擬的CMDB的介面,或者是保留現場,都保留在這裡面。

我們還支援一些日誌、資料庫程序的檢查,其實把我們比較好的同事應急的處理方法整合在一個介面裡。這種是屬於我們認為是小型的工具,這個是我們的服務化的思路,我們下面每一個工具都要向上拋介面,通過一個伺服器層,你在介面可以看到我這個介面上面的一些測試,我在開發過程當中也可以通過這個介面去選。

這是視覺化,我們也會分專業檢視、管理檢視、業務檢視,這些都是我們做出來的介面,這是大屏,這是一個實時動態的圖。

這個是我們的產品的,這兩個是我們做的。這個是我們統一的門戶,我們統一的門戶把所有工具放在這裡面,我們讓我們的控制檯把待辦法放在這裡面。有些比較經常用的像監控就嵌入裡面,像比較小的工具,我們就用連結的方式。

未來我們一方面是做好自動化,來解決我們的一些痛點。還有我們要結合大資料去放眼智慧。我本來改了一稿,裡面還有一些東西,這不是最新的一稿。謝謝大家!

文章來自微信公眾號:雲端計算開源產業聯盟