1. 程式人生 > >【故障公告】阿里雲 RDS 資料庫伺服器 CPU 100% 造成全站故障

【故障公告】阿里雲 RDS 資料庫伺服器 CPU 100% 造成全站故障

非常非常抱歉,今晚 19:34 ~ 21:16 園子所使用的阿里雲 RDS 資料庫伺服器突然出現 CPU 100% 問題,造成全站無法正常訪問,由此您帶來了很大的麻煩,請您諒解。

故障經過是這樣的。19:34 這個時間點本來是一個訪問低峰,資料庫壓力比訪問高峰時低很多,但資料庫伺服器卻異想天開、吃飽了撐著地讓自己的 CPU 滿負荷工作(到現在我們都沒想通,難道是伺服器晚飯吃多了想幫助消化?)。開始我們以為是某個應用引起的,一個一個應用排查與重啟, 但 CPU 不為所動,依然百分百。接著,我們一邊向阿里雲提交工單求助,一邊通過阿里雲 RDS 控制檯進行主備切換,雖然控制檯顯示切換成功後,但“例項可用性”中主備庫資訊無任何變化,實際主備庫切換並沒有成功,絕招也失靈。請阿里雲幫忙手動進行主備切換,但阿里雲操作後反饋由於資料庫訪問壓力大,手動也切換不過去,建議我們重啟例項。最終,我們決定重啟例項,重啟例項後一切恢復正常。是的,就是用最笨的方法——重啟——解決了問題,在故障期間我們採取的所有措施都是徒勞,讓人哭笑不得。

望著今晚被狂風暴雨突襲後一片狼藉的園子,心中說不出的難受和愧疚。真的很抱歉,我們一直在努力建設園子,但今天的故障又告訴我們,沒那麼容易,我們的努力還不夠,我們別無選擇,唯有更加努力。