1. 程式人生 > >DigitalOcean 宕機5小時,都是資料庫刪除惹的禍!

DigitalOcean 宕機5小時,都是資料庫刪除惹的禍!

DigitalOcean

上週,雲託管服務提供商Digital Ocean重蹈GitLab在2個月前的覆轍:因粗心大意而出亂子,刪除了一個生產級資料庫,結果引發了持續五個小時的故障。

不像GitLab遭遇的那次災難,Digital Ocean“由工程師引起的配置錯誤”並不包括備份故障。

Digital Oecan在對“不可接受”的故障事件表示道歉時解釋,這次故障導致其控制面板和API失靈,因而害得客戶無法建立新的虛擬伺服器(即所謂的“Droplet”)。

謝天謝地,現有的虛擬伺服器保持線上狀態。

事後查明,問題的根源是某人的自動測試過程是使用生產級登入資訊(production credential)配置的,這家公司也認為不應該犯這種低階錯誤。

“在收到初始警報的三分鐘內,我們發現我們的主資料庫已經被刪除,”道歉帖子聲稱,這觸發了該公司從時間延遲的資料庫副本恢復的過程。

除了對主資料庫的訪問進行新的限制外,該公司表示還對網路進行了升級,加快資料庫伺服器連線的速度。

這給系統管理員上了一堂寶貴的課:如果你不測試備份,就沒有備份,只好靠老天保佑了。很顯然,Digital Oecan確實平時在測試備份,這可幫了它大忙。