1. 程式人生 > >螞蟻金服 TRaaS 技術風險防控平臺解密

螞蟻金服 TRaaS 技術風險防控平臺解密

640?wx_fmt=gif

在金融行業,風險防控能力的重要性不言而喻。而螞蟻金服可實現高達 99.999% 的異地多活容災,千億級資金秒級實時核對“賬、證、實”等能力也讓業界有目共睹。

今年位於杭州的螞蟻金服 ATEC 科技大會上,螞蟻金服正式推出技術風險防控平臺 TRaaS(Technological Risk-defense as a Service)。經歷過無數考驗的 TRaaS 是把螞蟻金服整個分散式架構和相應的技術風險能力組合在一起的免疫系統,它將高可用和資金安全能力結合 AIOps,使系統實現故障自愈,具有免疫能力。

本文將為大家全面解讀螞蟻金服的技術風險防控平臺 TRaaS。

與 IaaS、PaaS、SaaS 都同屬於“aaS”輩的 TRaaS 聽起來就給人一種高科技的感覺,這個在今年螞蟻金服 ATEC 科技大會上一鳴驚人的名詞的中文釋義非常令人尋味,Technological Risk-defense as a Service,技術風控即服務。而按照 ATEC 大會主辦方螞蟻金服解釋,TRaaS 是螞蟻金服內部沉澱已久推出的“技術風險防控平臺”,它將高可用和資金安全能力結合 AIOps,使系統實現了主動發現風險和自我恢復的能力,進而形成了更智慧化、精細化的技術風險防控體系。

而實際上,螞蟻金服醞釀 TRaaS 已經有幾年之久,在經過四年的精心打磨和無數次嚴酷考驗之後,螞蟻金服才在此次 ATEC 大會上將之公佈與眾,由此足見 TRaaS 對於螞蟻金服的重要性,因此,筆者覺得有必要對 TRaaS 進行一番深入的剖析和解讀。


640?wx_fmt=png

TRaaS 的前世今生


“螞蟻有一個團隊,他們在背後默默守護著我們的系統,為保障業務連續性付出十二分的努力。他們就是螞蟻的技術風險團隊。大家知道,風險防控能力對於金融系統而言是第一位的,如何保障金融系統的高可用?如何保障金融業務的 0 資損?這就是技術風險團隊需要解決的兩大課題,隨著金融行業日新月異的發展,這兩大課題逐漸發展成為包含容量彈性管控、變更風險預測、資金風險識別與故障智慧決策等在內的技術風險防控領域,最終成長為更智慧化、精細化的技術風險中臺架構。當前我們已經在螞蟻金融雲上開放了技術風險領域最為成熟,並在螞蟻內部得到廣泛應用的技術風險防控產品。我們將繼續在 AIOps 運維方向上探索,通過資料、演算法、經驗沉澱支撐 7×24h 智慧運維。因此,我們將技術風險這層能力持續地抽象出來,形成 TRaaS,輸出給數字化轉型的金融機構,在分散式架構改造升級的同時提高技術風險防控能力,真正做到讓不確定的事變成確定!”螞蟻金服如此講述了 TRaaS 的來龍去脈。

正如上所述,TRaaS 誕生於支付寶系統千錘百煉的實戰經驗之中,是在經歷了嚴酷的“雙十一”等多次考驗下一步一步逐漸成長起來的技術風險防控平臺。

2015 年,在支付寶經歷了慘痛的 527 事件以後,螞蟻金服痛定思痛,組建了技術風險 SRE 團隊,負責螞蟻金服整個金融系統的風險防控。在這一年,螞蟻完成了資金安全防控體系建設,並實現了異地多活的容災架構,還建立了容災演練機制。

2016 年,螞蟻金服成立高可用&資金安全架構組,這也是日後 TRaaS 為使用者提供高可用和資金安全兩大能力背後的強大技術支撐團隊。同年,螞蟻金服開始進行斷網突襲演練,構建自適應容災架構,這也為 TRaaS 具備的業務連續性和高可用性打下了堅實的基礎。同在這一年,支付寶資金業務核對由 T+H 提升到實時。

2017 年,支付寶系統實現了故障定位精細化,這為日後的故障自愈提供了前提條件,而灰度模擬的支援,則進一步提升了系統的健壯性。同年,螞蟻金服還引入了紅藍攻防,這為 TRaaS 注入了風險預測的能力。

2018 年,在故障定位精細化的基礎上,支付寶系統實現了故障自愈,容災模擬迴歸為系統提供了出色的容災能力,而 AIOps,則將人工智慧技術融合在了風險防控之中。

正是在這樣的基礎上,螞蟻金服在今年的雲棲 ATEC 大會上正式推出了 TRaaS 技術風險防控平臺。


640?wx_fmt=png

TRaaS 究竟強在哪裡?


“TRaaS 這套架構,我們內部稱之為‘免疫系統’,它就好像人類的免疫系統。就像人們生病時,免疫系統會幫助他們快速恢復健康一樣,我們把螞蟻金服整個分散式架構和相應的技術風險能力組合在一起,提供出來,這就是我們的免疫系統——TRaaS。通過 TRaaS,我們可以保證實現 99.999% 的高可用性,這背後依靠的就是我們三地五中心的架構。另外,對於金融最關鍵的資金安全,TRaaS 可以做到實時化的內部帳、證、實的核對,速度達到秒級。此外,最關鍵的是 TRaaS 具有強大的”免疫能力“,可以使我們做到風險 5 分鐘發現,5 分鐘自愈。”螞蟻金服副 CTO、副總裁、首席架構師胡喜一針見血的指出了 TRaaS 系統的三大強點,即高可用、資金安全、免疫能力。

640?wx_fmt=jpeg


強點之一:高達 99.999%的高可用性

高可用對於金融系統的重要性不言而喻,而對於支付寶這樣最高可達每秒 25.6 萬筆交易處理能力,擁有幾億行程式碼、幾萬臺伺服器以及未來可能由百億行程式碼、百萬臺伺服器構成的龐大和動態變化的系統而言,如何能夠合理地架構與駕馭其複雜性,使其保持健壯、敏捷及高可用性對螞蟻金服而言是一個極大的挑戰。

為此,螞蟻金服通過自主研發的金融分散式架構 SOFAStack 以及金融分散式資料庫 OceanBase,為系統提供全方位的業務連續性和高可用保證。SOFAStack 將提供全棧式的金融分散式架構能力,配合金融分散式資料庫 OceanBase,能夠在保證風險安全的同時幫助業務需求敏捷迭代,同時滿足異地容災、低成本快速擴容的需求。

但對於金融系統的高可用來說,容災顯然更為關鍵,螞蟻金服在本次 ATEC 大會上重磅推出三地五中心架構,即在三座城市部署五個機房,一旦其中一個或兩個機房發生故障,支付寶的底層技術系統會將故障城市的流量全部切換到執行正常的機房,並且能做到資料保持一致且零丟失,三地五中心架構可實現低成本交易,無限可擴充套件,恢復點目標(RPO)接近 0,恢復時間目標(RTO)小於 30 秒。

同時,通過全鏈路壓測,即將足夠的流量壓力,例如類似“雙十一”的流量壓力,載入整個系統之中,來測試系統系統在極限容量下的可用性,並通過測試結果對系統進行不斷的調整和優化。

依靠這種三地五中心的異地多活容災架構以及全鏈路壓測的考驗,TRaaS 最終實現了高達 99.999% 的高可用性,即極高可用性,也就是說系統年度停機時間將不超過 5 分鐘。

 

強點之二:千億級資金秒級實時核對

資金安全對於金融系統的重要性不言而喻,尤其對於支付寶這種每秒能夠處理百億、千億級資金的平臺來說,資金安全則更是生死攸關的大事了。資金安全的本質是要保證在整個業務交易的流水過程中,資金金額不能出現差錯。而這則要涉及到人、應用、資料三大物件以及故障應急、資料支撐、風險度量、灰度演練、風險識別五大能力。

640?wx_fmt=jpeg

而這些方面能力的提升,只能是通過不斷的攻防演練來實現,因此,從 2016 年開始,螞蟻金服就開始進行斷網突襲演練,而到了 2017 年,螞蟻金服更是引入紅藍攻防,演練的頻率也從從一、兩個月一次逐漸過渡到現在的每天一次。

通過這樣的不斷演練,螞蟻金服的業務核對能力由最初的 T+1,逐步過渡 T+H,直到今天的實時業務核對,而整個資金安全防控體系也包含了變更管控、自動化迴歸、流量模擬、資金安全監控、應急預案等更多的內容。

TRaaS 平臺負責人,螞蟻金服研究員陳亮(花名:俊義)回憶道,在整個資金防控體系的演進過程中,最初與很多銀行一樣,是靠人力做當前的金額跟全天總賬的對賬。之後通過自動的方式,將全量資料庫表匯出後做計算來進行核對。後來業務量更大了以後,就引入了 T+H,核對時間也從天變到小時級,並在此過程中增加了異常管理。最後演進到實時業務核對時,又增加了熔斷決策、資金免疫以及智慧監控等方面的功能,從而形成了 TRaaS 強大的千億級資金秒級核對能力。


強點三:5 分鐘發現,5 分鐘自愈的免疫能力

對於一個關鍵系統,尤其是金融系統來說,如果系統不主動出現問題,就幾乎不可能知道系統存在問題,因此,螞蟻金服對此的應對方法是每天不斷地給系統注入各種故障,而且這些故障覆蓋螞蟻金服的一千多個應用場景,這種注入故障的方法就好比軍事演習中的紅藍軍對抗,因此,稱為“紅藍攻防”。而在不斷的對抗中,TRaaS 系統不斷地走向健壯,從而形成了自己所謂的“免疫能力”。

640?wx_fmt=jpeg

而通過引入 AIOps,即智慧運維,不僅能夠幫助 TRaaS 在發現、定位和自愈能力上更加智慧,而且可以大幅降低運維人員的工作量。對此陳亮還舉了幾個例子,例如在高可用的監控領域,由於需要監控的點和資料非常多,這就會使資料的噪音增多。而這些噪音 AI 只要通過一定的訓練和模式識別就可以輕鬆過濾掉,而對人來說這卻非常困難。又比如在支付寶內部,僅僅監控點就有五六萬個之多,而每個點都可以配置出一條資料,如果再讓人把這些資料繪成視覺化的圖表,這幾乎是不可能完成的任務,而 AI 則可以輕鬆做到。陳亮還介紹說,通過 AI 的方式識別監控資料之間的關聯,無論是對於資金監控、故障發現、精確定位,還是風險預測,快速止血以及自動決策都是事半功倍的。


640?wx_fmt=png

TRaaS 的未來會怎麼樣?



作為螞蟻金服成立四年來,最為重磅的釋出,TRaaS、分散式金融核心套件以及大資料+人工智慧平臺實際上是螞蟻金服在金融系統多年積累和沉澱的技術能力、服務能力的對外輸出,它代表了螞蟻金服 3.0 時代的開放思想,也標誌著螞蟻金服在金融系統領域技術上的最高水平,實際上確立的是螞蟻金服在金融領域技術領先的地位,同時也是阿里巴巴董事會主席馬雲所倡導的“五新”中的創新金融服務中的重要一環。TRaaS 之於支付寶、螞蟻金服、甚至整個阿里巴巴集團都非常重要,因此,我們有理由相信 TRaaS 將會成為螞蟻金服在核心金融系統領域的殺手鐗,而擺在它面前的征途,將是星辰和大海!

640?wx_fmt=gif

640?wx_fmt=gif