1. 程式人生 > >DigitalOcean宕機事件回顧:主資料庫被刪除,四小時後恢復

DigitalOcean宕機事件回顧:主資料庫被刪除,四小時後恢復

DigitalOcean

在運維派前面文章中已經報道了 DigitalOcean宕機 的事故,今天將DigitalOcean的官方公告來了解整個事件的詳細過程:

事件回顧

2017年4月5日,DigitalOcean的控制面板與API遭遇時長4小時56分鐘的不可用狀態。在此期間,全部執行中的Droplets仍繼續正常運轉,但使用者無法建立或者管理額外的Droplets乃至其它資源。我們非常清楚客戶對我們服務方案的高度依賴,而這樣的服務中斷顯然是不能接受的。我們對這一狀況深表歉意,並將承擔全部相關責任。您對於我們的信任是我們最為重要的資產,因此我們希望在這裡分享與此次事件相關的全部細節資訊。

2017年4月5日上午10:24(美國東部時間,簡稱EDT),我們開始接收到公共服務不可用之相關警報。在發生初始警報的3分鐘之內,我們發現主資料庫已經遭到刪除。4分鐘之後,我們開始利用一套時間延遲型資料庫副本開始執行恢復流程。在接下來的4個小時內,我們將資料複製並恢復至與主要與次要副本相一致的水平。在此次服務中斷過程中,主要時間消耗被用於進行副本間資料複製並將其還原至活動伺服器當中。
當日下午3:20(美國東部時間),主資料庫已經得到完全恢復,且未丟失任何資料。

DigitalOcean簡介

DigtialOcean是一家創立於2011年的美國雲服務提供商,擁有遍佈全球的資料中心。2015年12月,DigitalOcean成為了全球第二大面向Web的網路寄存服務公司。

據資料顯示,DigitalOcean擁有超過3萬家企業團隊客戶,如:Atlassian、Docker、Salesforce、惠普、紅帽、愛立信等。

事件時間表

• T0.00 – 10:24 EDT – 首次發現問題。
• T0.03 – 10:27 EDT – 驗證生產資料庫是否已被刪除。
• T0.10 – 10:34 EDT – 開始利用時間延遲副本進行資料恢復。
• T1.29 – 11:53 EDT – 時間延遲副本備份完成。
• T2.10 – 12:34 EDT – 將備份複製至主伺服器之過程完成; 恢復流程正式開始。
• T3.07 – 13:31 EDT – 主伺服器恢復完成; 繼續將備份複製至各副本內。
• T4.56 – 15:20 EDT – 全部系統恢復完成。

未來措施

造成此次事件的根本原因在於一項工程師驅動之配置發生了錯誤。自動化測試執行流程中使用的生產憑證存在配置錯誤。著眼於未來,我們將大幅減少某些行為對於主要系統的訪問,以確保不再出現類似情況。

如上所述,此次事件的持續時間主要受到我們網路速度的影響,即需要將資料重新載入至我們的資料庫當中。雖然此類事件未來仍有可能再次發生,但我們正在致力於升級資料庫伺服器之間的網路連線,同時更新相關硬體以提高恢復速度。我們預計相關改進將在未來幾個月之內陸續完成。

總結

我們希望與大家儘快分享相關資訊,以便您能夠儘早瞭解與此次服務中斷相關的事件性質與影響。著眼於未來,我們將繼續評估並實施可避免開發人員錯誤之各類保障性舉措,努力改進以資料為核心的恢復流程,同時探索如何在未來可能對客戶造成影響的事件中提供更理想的實時資訊。我們高度關注自身服務的可靠性,並一直在努力提供一套可靠的平臺供各位使用者執行您的關鍵性任務應用。
DigitalOcean全體成員感謝您的理解,並再次就此次事件給您帶來的不便表達誠摯歉意。

原文連結:https://www.digitalocean.com/company/blog/update-on-the-april-5th-2017-outage/