【故障公告】阿里雲 RDS 資料庫突發 CPU 近 100% 引發全站故障
今天晚上9點我們收到阿里雲的告警通知:
【阿里雲監控】華東1(杭州)-雲資料庫RDS版<cnblogsdb> [instanceId=xxx] 於21:00 發生告警, 前往診斷 CPU使用率平均值(98.25>=80 ), 持續時間4分鐘, rds_CpuUsage
收到通知後,我們立即登入阿里雲 RDS 控制檯進行主備庫切換,等主備庫完成切換後一看並沒有切換過來,趕緊再次進行切換,第2次切換成功了,切換完成後 CPU 立刻降至正常水平,全站恢復正常。
這次故障發生時間是8月20日20:55~21:14,由此給您帶來麻煩,請您諒解。
上次發生同樣故障是6月24日,詳見 【故障公告】阿里雲 RDS 例項 CPU 100% 故障引發全站無法正常訪問。
阿里雲資料庫專家分析後懷疑是“LINQ 生成的 SQL 存在問題,導致概率性 SQL Server 出現引數嗅探問題”。
我們會進一步分析並優化這次引發引數嗅探問題的 SQL 語句。
相關推薦
【故障公告】阿里雲 RDS 資料庫突發 CPU 近 100% 引發全站故障
今天晚上9點我們收到阿里雲的告警通知: 【阿里雲監控】華東1(杭州)-雲資料庫RDS版<cnblogsdb> [instanceId=xxx] 於21:00 發生告警, 前往診斷 CPU使用率平均值(98.25>=80 ), 持續時間4分鐘, rds_Cp
【故障公告】阿里雲 RDS 資料庫伺服器 CPU 100% 造成全站故障
非常非常抱歉,今晚 19:34 ~ 21:16 園子所使用的阿里雲 RDS 資料庫伺服器突然出現 CPU 100% 問題,造成全站無法正常訪問,由此您帶來了很大的麻煩,請您諒解。 故障經過是這樣的。19:34 這個時間點本來是一個訪問低峰,資料庫壓力比訪問高峰時低很多,但資料庫伺服器卻異想天開、吃飽了
雲上的芯髒病:奇怪的阿里雲 RDS 資料庫突發 CPU 近 100% 問題
最近遇到了奇怪的阿里雲 RDS 資料庫突發 CPU 近 100% 問題,遇到了3次。 第一次是10月12日(週六)凌晨 3:24 負載極低的時候開始出現,早上發現後進行了主備切換,恢復了正常。 第二次也是出現在10月12日,就在主備切換後不久,發現後又進行了主備切換,切換回之前出問題的伺服器,恢復了正常。
【故障公告】阿里雲 RDS SQL Server 資料庫例項 CPU 100% 引發全站故障
非常抱歉,今天 8:48 開始,我們使用的阿里雲 RDS SQL Server 資料庫例項突然出現 CPU 100% 問題,引發全站故障,由此給您帶來麻煩,請您諒解。 發現故障後立即進行主備切換,和往常一樣,第1次主備切換失敗,第2次主備切換完成後恢復正常。 上次同樣故障發生在2020年11月
【故障公告】阿里雲 RDS 例項 CPU 100% 故障引發全站無法正常訪問
非常抱歉,今天凌晨 3:20~8:30 左右,我們使用的阿里雲 RDS 例項 SQL Server 2016 標準版突然出現 CPU 100% 故障,造成全站無法正常訪問,由此給您帶來巨大的麻煩,請您諒解。 問題很奇怪,故障期間是資料庫伺服器負載極低的時間段。從阿里雲 RDS 控制檯 CloudDBA 看
【故障公告】資料庫伺服器 CPU 近 100% 引發的故障(源於 .NET Core 3.0 的一個 bug)
非常抱歉,這次故障給您帶來麻煩了,請您諒解。 今天早上 10:54 左右,我們所使用的資料庫服務(阿里雲 RDS 例項 SQL Server 2016 標準版)CPU 突然飆升至 90% 以上,應用日誌中出現大量資料庫查詢超時的錯誤。 Microsoft.Data.SqlClient.SqlEx
【故障公告】資料庫伺服器 CPU 近 100% 引發的故障
非常抱歉,今天上午 10:48 ~ 11:33 期間,我們所使用的資料庫服務(阿里雲 RDS 例項 SQL Server 2016 標準版)又出現了 CPU 近 100% 問題,由此給您帶來麻煩,請您諒解。 這次剛開始出現 CPU 近 100% 問題時,沒有造成大的影響,後來有段時間 CPU 降了
【故障公告】推薦系統中轉站撐爆伺服器 TCP 連線引發的故障
上週五下午,我們在部落格中部署了推薦系統,在博文下方顯示“最新IT新聞”的地方顯示自動推薦的關聯博文。我們用的推薦系統是第四正規化的推薦服務,我們自己只是搭建了一個推薦系統中轉站(基於 ASP.NET Core),接收來自部落格前端的請求,然後將請求轉發給第四正規化的推薦服務,並將響應內容轉發給部落格前端。
【故障公告】部落格系統升級到 .NET 5.0 引發的故障
昨天晚上我們將部落格系統從 .NET Core 3.1 升級到了 .NET 5.0 ,本來是一次很有信心的升級,但沒有想到在今天下午訪問高峰時竟然出現了故障,大量請求訪問速度變慢或者因為下面的資料庫連線超時異常出現500錯誤。 System.InvalidOperationException: Time
【故障公告】訪問高峰資料庫伺服器 CPU 100% 引發全站故障
今天上午11:10,我們又中“獎”了,我們使用的阿里雲 RDS 例項(SQL Server 2016 標準版,16核32G)突發出現 CPU 100%,引發全站故障,直到 12:15 才完全恢復,由此給您帶來很大的麻煩,請您諒解。 這是我們今年的第3次中“獎&
Python 備份阿里雲RDS資料庫
#!/usr/bin/env python3 # -*- coding: utf-8 -*- # @Author: # @Date : 2018/10/11 # !/usr/bin env python3 # 你需要匯入這個模組 import os import time
Python 大資料庫備份阿里雲RDS資料庫分表匯出壓縮
思路:因為有的資料庫比較大,整體壓縮之後還是會有幾個G內容,既不方便下載也不方便恢復,然後就想到了對獨立的表分開進行備份。 1.連線阿里雲rds 2.建立資料夾,層級關係(資料庫名->日期->表名壓縮包) 3.迴圈需要備份的資料庫 4.從相應的資料庫查詢全
【技術乾貨】阿里雲構建千萬級別架構演變之路
本文作者:喬銳傑,現擔任上海駐雲資訊科技有限公司運維總監/架構師。曾任職過黑客講師、java軟體工程師/網站架構師、高階運維、阿里雲架構師等職位。維護過上千臺伺服器,主導過眾安保險、新華社等千萬級上雲架構。在雲端運維、分散式叢集架構等方面有著豐富的經驗。 前言
【踩坑】阿里雲ECS清除隱藏的挖礦程式
問題描述: 一臺阿里雲伺服器,收到連續告警CPU使用量已經大於95%。但這臺機器上面使用中的業務只有一個不常使用的MySQL,其他就沒有了,正常情況下CPU是不可能達到這麼高的。檢視告警資訊,發現有被植入挖礦程式,可疑程式檔案路徑為 /usr/lib/libiacpkmn.so.3 排查過程
【域名解析】阿里雲域名+雲伺服器+tomcat實現多域名單IP多應用的解析全流程
環境說明 域名是在阿里雲上報備的 伺服器是阿里雲的資源,提供了一個對外IP 伺服器作業系統是windows 容器是tomcat 要求 域名下配置兩個二級域名 兩個二級域名跳轉到同一個IP上 該ip伺服器內部,部署在tomca
【新手教程】阿里雲視訊點播,輕輕鬆鬆給網站加上視訊的翅膀
您是不是被網站視訊問題弄的焦頭爛額、心煩意亂、夜不能寐、寢食難安?那麼,看完這裡,以上問題統統都可以解決啦。首先,我們開通阿里雲視訊點播功能,傳送門:https://www.aliyun.com/product/vod 開通需要1-5分鐘時間,請不要重複提交,請耐心等待:)開
【故障公告】再次出現數據庫 CPU 居高不下的問題以及找到了最可能的原因
非常非常抱歉,今天上午的故障又一次給大家帶來麻煩了,再次懇請大家的諒解。 在昨天升級阿里雲 RDS SQL Server 例項的配置後(詳見昨天的博文),萬萬沒有想到,今天上午更高配置的阿里雲 RDS 例項依然出現了 CPU 居高不下的問題。 在資料庫 CPU 高的情況下,有時對訪問速度影響不大,有時
阿里雲 RDS 資料庫又發 CPU 近 100% 的“芯髒病”
最近雲界發生了2件事,一件是大事,一件是小事,大事是阿里雲與微軟合作推出了開放應用模型 Open Application Model(OAM),小事是由於微軟 SQL Server 在阿里雲上水土不服(僅是我們的猜測),阿里雲 SQL Server RDS 患上了間隙性芯髒病,該病容易在夜間酣睡的時候發病
【故障公告】升級阿里雲 RDS SQL Server 例項故障經過
昨天晚上,我們使用的阿里雲 RDS SQL Server 2008 R2 例項突然出現持續 CPU 100% 問題,後來我們通過重啟例項恢復了正常(詳見故障公告)。但是在恢復正常後發現了新問題,這臺 RDS 例項 IOPS 不夠用,必須要進行升級,而且當時過了 0 點也是升級的好時間,再加上我們對升級到更
【2018中國計算機大會】阿里雲高階總監談超大規模超高效能分散式快儲存系統
新型硬體(如NVRAM、RDMA、GPU/TPU等)及其構建的異構複雜環境,與既有硬體環境的巨大差異,導致傳統的演算法、資料結構甚至是涉及原則和經驗法則等難以為繼,對計算智慧與大資料處理帶來新的挑戰和機遇。 10月27日下午,2018中國計算機大會上舉辦了主題“新型硬體環境下大資料處理技術”的技術論壇,一起