阿里雲又宕機!,關於阿里春晚宕機的介紹
在雲界流傳著一句話: “執行不穩定,宕機兩行淚!”
這不,今天凌晨因為阿里雲宕機,不少華北網際網路公司的程式設計師、運維人員接到報警後從被窩爬起活去了。

58一程式設計師如此描述今早的驚魂幾小時:“很多朋友經歷了昨晚阿里雲3小時左右的故障,我司的業務也收到了一定影響,技術的同事一起熬夜奮戰,最終觀察服務穩定運行了兩個多小時,直到凌晨五六點多才逐漸登出VPN。”1
對此,阿里雲釋出公告:華北2地域可用區C部分ECS等例項出現IO HANG。針對本次故障,將根據SLA協議,儘快處理賠償事宜。


這已經不是阿里雲第一次出事故了:10天前,阿里雲洩露 40 家名企原始碼;去年6月份,阿里雲官網的部分管控功能,及 NAS、OSS 等產品的部分功能出現訪問異常。
為何阿里雲宕機影響巨大?
在CSDN的2018-2019者大調查報告顯示,在國內公有云市場中,阿里雲的市場佔額最大,高達67%,遠超第2至5名的總和。
據阿里雲文件顯示:“中國有40%的網站都執行在阿里雲上,一半獨角獸公司都在阿里雲。”

所以說,阿里雲輕微一抖動,影響中國近半數的網際網路網站啊!
雲
雖然阿里雲承諾會賠償,可阿里雲故障頻出,不僅讓眾多IT人忙得人仰馬翻,還讓網友略微心寒啊:
這不僅僅是一個賠償的問題,對於客戶來說訪問不了或造成高於賠償多少倍的有形無形損失,技術方面仍然需要過硬啊!
把業務部署在平臺上,要的就是安全、穩定和可靠,不是賠償的事兒。
甚至有人想更換一個雲商,但無論是公司自搭建平臺或者各家雲商,從沒有說自己的產品是100%安全的。
阿里雲的文件清楚地寫道:“對於單例項維度,阿里雲承諾一個服務週期內ECS的服務可用性不低於99.95%;對於單地域多可用區維度,阿里雲承諾一個服務週期內ECS的服務可用性不低於99.99%”

那麼作為程式設計師,我們在設計架構時,的容災性必須要考慮完整:“ 在每一層都假設依賴的服務出故障時該怎麼應對,要麼冗餘,要麼降級,一定要考慮,不能把生命完全交給別人控制。避免單點故障,採用多臺雲的時候還要考慮不同可用區,否則單個可用區也可能徹底掛掉。 ”2
參考資料:
1架構師之路這一次,除了罵阿里雲,還能做些什麼?
2阿里雲社群《IT之家,這不是個案》
本文相關詞條概念解析:
賠償
賠償是一個漢語詞彙,拼音是péicháng,指對損失、損壞或傷害的補償;對受害的一方補償或賠款。語出《元典章·戶部二·分例》。
故障
故障(Failure,fault),裝置在工作過程中,因某種原因“喪失規定功能”或危害安全的現象。失效有時也被稱為一種故障,也可能是裝置工作中丟失也是一種故障,但這些故障卻是可修復的。規定功能是指在裝置的技術檔案中明確規定的功能。徐遲《入峽記》:“又一次,調速器出了故障,機匠在黑板上寫了‘調速器跳舞’五個字。孫犁《秀露集·耕堂讀書記(二)》:“但究竟發生了什麼故障,他從不具體說明。
來源:網路