記一次Ceph日誌損壞的分析處理過程
今天下午看到群友在說一個問題,說ceph的某個osd處於down的狀態,我大概整理下他的處理過程
1、查看OSD的狀態
2、查看日誌信息
3、啟動對應的ceph-osd服務
4、檢查集群健康狀態
2、日誌損壞了,如何讓osd重新上線
思路:重建日誌
a、先把/var/lib/ceph/osd/ceph-61/journal 日誌刪掉
b、重建日誌ceph-osd -i 61 --mkjournal
記一次Ceph日誌損壞的分析處理過程
相關推薦
記一次Ceph日誌損壞的分析處理過程
Ceph 日誌 1、故障現象 今天下午看到群友在說一個問題,說ceph的某個osd處於down的狀態,我大概整理下他的處理過程 1、查看OSD的狀態2、查看日誌信息3、啟動對應的ceph-osd服務4、檢查集群健康狀態 2、日誌損壞了,如何讓osd重新上線 思路:重建日誌a、先把/var/lib/ce
記一次ceph pg unfound處理過程
今天檢查ceph叢集,發現有pg丟失,於是就有了本文~~~ ### 1.檢視叢集狀態 ```shell [root@k8snode001 ~]# ceph health detail HEALTH_ERR 1/973013 objects unfound (0.000%); 17 scrub errors;
記一次database cpu high的處理
業務 read 需要 十分 時有 一次 -1 技術 ima 基本上,我們的數據庫實例每次cpu飆升都是因read而起,很少有write導致的cpu高。這說明read,隨機讀,排序,都會占用cpu。而寫入主要是io行為,尤其是順序寫,不需要占cpu。 今次問題,rds在三個小
記一次腦殘的故障處理-萬兆網卡驅動升級
問題解決 細節 更改 版本 題解 centos 6 重復 早已 地址 環境 centos 6.5 x64 83599ES 萬兆網卡 旁路流量送到萬兆網卡 升級萬兆網卡驅動 重復過一萬次的操作,一鍵搞定;這裏有一個小細節,intel官網驅動有版本升級,之前的地址不能用了,
記一次痛苦的編碼問題處理
上線前我們沒有關注 oracle的編碼,測試環境一直是chinese utf-8,而生產庫oracle叢集配置的是AMERICAN_AMERICA.AL32UTF8, 導致上線後系統新增資料到後臺變為亂碼,通過校驗 後臺處理邏輯為 iso8859-1的時候轉化gbk是正確
oralce 記一次 External Procedure initial connection 處理
1 環境 oracle 11.2.0.4 RAC(2 nodes),centos 6.8,實體機 2 問題 線上環境執行一條sql sql> select ST_AsText(ST_Geometry('POINT (10 10)', 0)) from dual; session第一連次接耗時穩
記一次線上請求緩慢問題處理
9月的某天晚上,接到通知,線上環境請求非常慢,頁面開啟要1分鐘,遂按照系統引數,資料庫,應用,web伺服器狀態逐步排查的步驟,最終定位到問題並得以解決,此處做個檢查流程梳理,供大家參考。 問題描述:正式環境請求響應異常慢,頁面開啟需要1分鐘左右時間等。 第一步 系統引數檢
記一次通過Memory Analyzer分析記憶體洩漏的解決過程
狀況描述: 最近專案新打的版本,過不了多長時間,專案就會掛掉。狀況就是處於一種假死的狀態。索引查詢都很慢,幾乎進行不了任何操作,慢慢卡死。 然後我們再發版時,只能基於之前打好的war包,替換或者增加c
記一次Dubbo導致的記憶體洩漏過程分析及解決
近日測試團隊反饋版本機測試環境請求經常卡頓,十分緩慢,甚至有超時的情況,但是請求返回、業務邏輯均是正常的,因此進行了一番排查。 首先檢視應用日誌,及控制檯監控,應用均表現無異常,由於版本
記一次log4j日誌寫到錯誤檔案的問題
背景 專案採用log4j2記錄日誌,其中WARN級別日誌單獨記錄,日誌檔案採用RollingFileAppender,每天一個日誌檔案。 問題現象 在10月20號的日誌檔案中,發現了一條10月22日生成的日誌檔案,導致排查問題時漏看了一條日誌。 程式碼
記一次記憶體溢位的分析經歷——thrift帶給我的痛orz
說在前面的話朋友,你經歷過部署好的服務突然記憶體溢位嗎?你經歷過沒有看過Java虛擬機器,來解決記憶體溢位的痛苦嗎?你經歷過一個BUG,百思不得其解,頭髮一根一根脫落的煩惱嗎?我知道,你有過!但是我還是要來說說我的故事..................背景:有一個專案做一個
記一次Redis的異常分析
最近線上環境偶爾在零點過後的時候就會報Redis的異常,出現好幾種錯誤,並且持續時間在1-3分鐘之間,並不固定,報的錯誤也有3種,表現各不相同,很是詭異。 (1)錯誤一 redis.clients.jedis.exceptions.JedisConnectionExcep
記一次記憶體溢位的分析經歷
開發十年,就只剩下這套架構體系了! >>>
HTTP 之 一次完整的http請求處理過程
處理 請求過程 http請求處理過程如下.1、建立連接:接收或拒絕連接請求,通過三次握手建立.2、接收請求:接收客戶端請求報文中對某資源的一次請求的過程.Web訪問響應模型(Web I/O)單進程I/O模型:啟動一個進程處理用戶請求,而且一次只處理一個,多個請求被串行響應必須處理完前面的請求後才能處理
TPS低,CPU高--記一次storm壓測問題排查過程
進入 狀態 其他 value 由於 均衡 線程狀態 左右 grep 命令 一、業務背景+系統架構 本次場景為kafka+storm+redis+hbase,通過kafka的數據,進入storm的spout組件接收,轉由storm的Bolt節點進行業務邏輯處
記一次線上gc調優的過程
aspect hash 接下來 JD lac abs rac 數據庫 %x 近期公司運營同學經常表示線上我們一個後臺管理系統運行特別慢,而且經常出現504超時的情況。對於這種情況我們本能的認為可能是代碼有性能問題,可能有死循環或者是數據庫調用次數過多導致接口運
記一次Xmrig挖礦木馬排查過程
linux 系統 異常 定位 計劃任務 root systemctl ica 文件名 發現 問題現象 Linux 服務器收到報警信息,主機 CPU 跑滿。 自動創建運行 Docker 容器 xmrig, 導致其他運行中容器被迫停止。 問題原因 通過 to
記一次自動化測試崗位面試的過程及問題
自我介紹一下 8la8la8la… 說說你的自動化框架是怎麼實現的 python+selenium+excel檔案用資料驅動 我的意思是說,具體怎麼實現的 哦,先寫一個base檔案做基礎負責呼叫實際方法,還有資料的讀寫;然後往上有專門封裝UI操作的method檔案,
記一次APP脫殼重打包過程
小夥伴分享了一個開車軟體,但是有播放次數限制。對此小夥伴放言要制裁它,無奈APP加固了。 咳咳,本著學(wei)習(le)研(fu)究(li)的態度,嘗試著脫殼並重打包。 為證清白,伸出雙手,上操作。 右鍵直接解壓APK,檢視特徵是360加固: 使用apktool工具反編譯APK作為
記一次MHA主從不同步恢復過程
背景: 根據生產環境故障模擬,由於生產環境主機mysql資料目錄滿,造成業務側連線mysql異常。維護人員在排查時,誤將MHA中主master的二進位制日誌全部清除,造成兩個從庫向主庫同步拉取日誌失敗,報找不到日誌錯誤。為解決該問題,同時又考慮到生產庫不能停庫,所以準備在主master庫上對相關