架構運維-監控設計
阿新 • • 發佈:2018-12-19
監控內容
- 網路資料,針對接入層的監控。
- 伺服器資料,包括伺服器的 CPU、記憶體、硬碟、連線數的各項使用資料。
- 應用資料。應用資料是這三者中最難的,但也是最重要的。應用資料是和業務邏輯緊密相關的資料,業務邏輯變了,應用資料的收集也會變化。
- 效能監控,根據日誌監控介面的流量、超時率、錯誤率等
- 安全監控,通過實時監控網路或主機活動,分析使用者和系統的行為,識別攻擊行為,對異常行為進行統計和跟蹤。
通知機制
- 運維平臺監控報警服務需要支援可配置的簡訊、電話、微信群報警。
- 通知的內容儘可能簡要清晰,能夠快速識別異常。(報警郵件中異常需要單獨列出 不能混在輸入輸出資訊中)
監控規則:
- 業務監控,匹配正常業務返回的狀態碼。
- 定義異常Code碼,針對異常Code進行監控。
- 可以支援使用指令碼編寫複雜監控規則。
- 可以提供基於線上實時日誌的監控支援。
- 第三方介面都需要新增監控。
報警規則
- 報警級別劃分為告知、異常、事故三個等級,且對於業務監控,業務可以根據需求進行配置。
- 事故級別的報警,白天晚上都必須打電話通知。
- 異常級別的報警,白天打電話,晚上可以發一封郵件、簡訊先通知問題。
- 告知級別的報警:可以只發一封郵件。
- 報警抑制:第一次異常報警之後,抑制一段時間(比如5分鐘)再發送報警通告,以防止報警轟炸。
- 觸發機制:業務側可以自己定義,比如連續5次發生異常才報警;連續5次告知可以升級為異常,連續5次異常可以升級為事故
資料儲存和展現
- 將歷史的監控報警資料儲存下來,並通過圖表在運維平臺上展現,以便於後續的資料分析和報警規則的優化。