1. 程式人生 > >明晚九點|一線互聯網公司服務器監控系統架構分享

明晚九點|一線互聯網公司服務器監控系統架構分享

訪問 體會 c11 blog 核心 ces 計算 運維自動化 more

主題:一線互聯網公司服務器監控系統架構

內容:

  • 自動運維的一點體會
  • 性能與可用性可擴展
  • 功能可擴展
  • 監控支撐業務擴展

主講師:PC 老師

大學時期就負責學校官方網站的運維工作,實習期間加入豆瓣,有幸成為豆瓣 Top20 員工,從事 Python 開發及運維工作,後在 BAT 從事自動化運維,見證BAT 運維自動化從無到有。擅長系統底層、分布式系統開發,熱衷於開源運動,給 memcached、SETI@Home 等多個開源項目貢獻過代碼。

自動化運維的一點體會

不同公司的需求差異

  • 監控?
  • 配置管理?
  • 自動部署?
  • 調度系統?
  • Iaas / Paas?
  • or more?

不同規模、不同行業的公司存在需求差異

自動運維的幾個基礎

  • 一本清晰的賬本 (準確的基礎信息)
  • 一個靠譜的監控
  • 一個靠譜的任務執行系統

    自動運維的基礎

    技術分享圖片

靠譜的監控

  • 本質:對被監控對象的指標進行狀態判定
    一臺服務器上 nginx 服務的連接數
  • 需要支持網絡層、服務器、服務、業務四層
  • 精準智能
  • 適應機器 的規模與增長速度
  • 高效、高可用性
  • 支持紛繁多樣的服務
    技術分享圖片

技術分享圖片

性能與可擴展

模塊內性能

  • 通信
    長連接
    Epoll
  • 多進程/線程
    高並發
    並發度可調
    技術分享圖片

    通信層剝離

  • 統一的高性能通信框架與通信協議
  • 業務開發簡單清晰

    多進程工作模型

  • 單進程IO復用接收
  • 多進程(worker)並發處理
    技術分享圖片

模塊功能精簡,便於組合

橫向擴展

  • 任意環節支持橫向擴展
  • 無狀態、負載均衡
  • 可支持級聯

    整體處理性能線性增長

  • 多路多點部署

高可用

去中心化

  • 無單點
  • 負載均衡
  • 橫向擴展
  • 多點部署
  • 自動切換
  • 每個環節自動切換
  • WRR
  • 多路冗余
  • 無狀態
  • Supervise保證存活
    技術分享圖片

    數據傳輸可靠性

  • 傳輸過程中多次確認
    采集到匯聚
    轉發到邏輯判斷
    轉發到存儲
  • 外部狀態監控
    傳輸起始端健康檢查
    每個環節的外部監控
  • 內部判斷

模塊內擴展

技術分享圖片

模塊間可擴展

  • 采集
  • 匯聚轉發
  • 過濾
  • 報警
  • 離線存儲
  • 挖掘分析
  • 展示

模塊間可擴展性

技術分享圖片

七巧板搭配

  • 匯聚後的多路傳輸
  • 級聯

    功能擴展簡單

  • 存活監控
  • 端口監控
  • 集群

    核心模塊高度復用

  • 模塊之間聯動反饋
  • 互聯互通
  • 存活監控

    模塊之間聯動反饋

  • 互聯互通
  • 存活監控

    功能擴展

技術分享圖片

  • 基礎監控 => 自定義監控
  • 端口 =>語義監控
  • URL監控 => HTTP語義監控
  • URL監控 => 訪問質量監控
  • 服務器指標監控 => 集群指標監控

監控支撐業務擴展

預算與成本分攤 ---offline

  • 結合基礎信息管理
  • 資源使用與服務器選型

    資源管理 --- offline

  • 空閑資源挖掘
  • 資源統計分析與基礎信息校正
  • 容量管理

    空閑資源利用 --- offline

  • 存儲資源
  • 計算資源

    調度決策的基礎 --- online

  • 報警觸發簡單任務執行
  • 關聯報警挖掘
  • 與業務評估模型結合

自動運維平臺的一個架構簡圖

技術分享圖片

詳情:http://mp.weixin.qq.com/s/THG8WJeLWR3U47BoDLGlWg

明晚九點|一線互聯網公司服務器監控系統架構分享