1. 程式人生 > >多事之秋-最近在阿里雲上遇到的問題:負載均衡失靈、伺服器 CPU 100%、被 DDoS 攻擊

多事之秋-最近在阿里雲上遇到的問題:負載均衡失靈、伺服器 CPU 100%、被 DDoS 攻擊

昨天 22:00~22:30 左右與 23:30~00:30 左右,有1臺服役多年的阿里雲負載均衡突然失靈,造成通過這臺負載均衡訪問部落格站點的使用者遭遇 502, 503, 504 ,由此給您帶來麻煩,請您諒解。

問題非常奇怪,從表現看,似乎負載均衡與後端伺服器之間的內網通訊出現了問題。有時健康檢查成功,但轉發請求到後端伺服器會失敗;後端伺服器明明正常,有時健康檢查卻失敗;最糟糕的時候,所有後端伺服器都健康檢查失敗。而其他使用同樣後端伺服器的負載均衡都沒出現這個問題,最終通過下線這臺負載均衡解決了問題。

這臺負載均衡是我們 2013 年剛上阿里雲時購買的,服役多年,之前從未出現這個問題,現在看來只能被迫讓它退役了。

昨天上午發現,我們用於部署除部落格站點之外所有其他應用的 docker swarm 叢集中所有伺服器 CPU 100% 。

這個 CPU 100% 與通常的 CPU 100% 有很大的不一樣,雖然是 100% ,但不影響應用的正常執行。今年3月份也遇到到同樣的問題,當時通過 top 命令檢視是 sy (system cpu time spent in kernel space) 佔用了很多 CPU ,後來通過重啟叢集中的所有 worker 節點伺服器並重新部署應用解決的。

今天早上我們也採取了重啟節點伺服器的方法,重啟後伺服器 CPU 恢復了正常。但在操作過程中,快閃記憶體應用容器出現了問題,造成 15 分鐘左右快閃記憶體站點訪問不正常,由此給您帶來麻煩,請您諒解。

最近,部落格站點遭遇多次 DDoS 攻擊,最高一次攻擊流量達到了近 80G 。一攻擊就會被阿里雲屏蔽30分鐘,雖然我們採取了應急措施,但全部生效要10分鐘左右,所以每次受攻擊影響的使用者可能要10分鐘左右才能恢復正常訪問,由此給您帶來您諒解,請您諒解。

在這個多事之秋,網站出現了很多次故障,給大家帶來了很大的麻煩,懇請大家的諒解。

這個多事之秋,對我們也是一種考驗,我們會吸取教訓,進一步提升自己,在接下來更加努力地和大家共建更加朝氣蓬勃的園子。