ATEC上支付寶模擬自斷一半伺服器,26秒一切恢復正常
摘要: 秒級自愈能力的幕後功臣,是支付寶沉澱多年的城市級故障自動容災系統,它將徹底開放給越來越多的合作伙伴。
9月20日,杭州雲棲大會ATEC主論壇現場上演了一場特別的技術秀。螞蟻金服副CTO胡喜現場模擬挖斷支付寶近一半伺服器的光纜。結果只過了26秒,模擬環境中的支付寶就完全恢復了正常。
這是由支付寶工程師策劃的一次特別技術演練,他們基於支付寶的真實機房,在兩個城市各單獨搭建了兩個模擬機房,以測試當兩個機房同時下線後的系統穩定性。
現場大屏有個二維碼,觀眾掃碼就能登陸一個虛擬賬號體驗。兩個機房斷網後的約20秒內,賬戶頁面顯示系統異常,20秒後,觀眾全部都能順利轉賬了。
螞蟻金服副CTO胡喜解釋,這次是演習。而在真實環境下,如果支付寶部署在兩個城市的兩個機房同時出問題,跑在這兩個機房上的支付寶賬戶恢復正常的速度是分鐘級。
據瞭解,這一機房架構叫“三地五中心”,即在三座城市部署五個機房,一旦其中一個或兩個機房發生故障,支付寶的底層技術系統會將故障城市的流量全部切換到執行正常的機房,並且能做到資料保持一致且零丟失。
記者瞭解到,目前網際網路和金融科技行業普遍採用的是“兩地三中心”部署架構,即在一個城市設兩個機房,在另一個城市設一個冷備機房。
胡喜強調,這個架構,絕不僅僅是多設立了兩個機房那麼簡單,它非常考驗一家公司分散式架構、資料庫、中介軟體及相關金融核心技術的能力。而這正是支付寶創立前十年修煉技術內功的結果。“支付寶的技術目標之一就是保證金融級別的系統穩定和安全能力。”
曾有行業人士做過概率計算,兩個城市多個機房同時故障的概率極低,基本不會發生。而即便發生了,現場的演習也展示出支付寶強大的容災能力。胡喜在現場和大家開起了玩笑:“這次演練,告訴了大家一個好訊息,一個壞訊息。好訊息是,支付寶很安全,很穩定,至少要陪大家再過102年,壞訊息是,不管剪多少光纜,花唄還是要還的。”