1. 程式人生 > >架構運維-監控設計

架構運維-監控設計

監控內容

  • 網路資料,針對接入層的監控。
  • 伺服器資料,包括伺服器的 CPU、記憶體、硬碟、連線數的各項使用資料。
  • 應用資料。應用資料是這三者中最難的,但也是最重要的。應用資料是和業務邏輯緊密相關的資料,業務邏輯變了,應用資料的收集也會變化。
  • 效能監控,根據日誌監控介面的流量、超時率、錯誤率等
  • 安全監控,通過實時監控網路或主機活動,分析使用者和系統的行為,識別攻擊行為,對異常行為進行統計和跟蹤。

通知機制

  • 運維平臺監控報警服務需要支援可配置的簡訊、電話、微信群報警。
  • 通知的內容儘可能簡要清晰,能夠快速識別異常。(報警郵件中異常需要單獨列出 不能混在輸入輸出資訊中)

監控規則:

  • 業務監控,匹配正常業務返回的狀態碼。
  • 定義異常Code碼,針對異常Code進行監控。
  • 可以支援使用指令碼編寫複雜監控規則。
  • 可以提供基於線上實時日誌的監控支援。
  • 第三方介面都需要新增監控。

報警規則

  • 報警級別劃分為告知、異常、事故三個等級,且對於業務監控,業務可以根據需求進行配置。
  • 事故級別的報警,白天晚上都必須打電話通知。
  • 異常級別的報警,白天打電話,晚上可以發一封郵件、簡訊先通知問題。
  • 告知級別的報警:可以只發一封郵件。
  • 報警抑制:第一次異常報警之後,抑制一段時間(比如5分鐘)再發送報警通告,以防止報警轟炸。
  • 觸發機制:業務側可以自己定義,比如連續5次發生異常才報警;連續5次告知可以升級為異常,連續5次異常可以升級為事故

資料儲存和展現

  • 將歷史的監控報警資料儲存下來,並通過圖表在運維平臺上展現,以便於後續的資料分析和報警規則的優化。