明晚九點|一線互聯網公司服務器監控系統架構分享
阿新 • • 發佈:2018-01-10
訪問 體會 c11 blog 核心 ces 計算 運維自動化 more 主題:一線互聯網公司服務器監控系統架構
內容:
- 自動運維的一點體會
- 性能與可用性可擴展
- 功能可擴展
- 監控支撐業務擴展
主講師:PC 老師
大學時期就負責學校官方網站的運維工作,實習期間加入豆瓣,有幸成為豆瓣 Top20 員工,從事 Python 開發及運維工作,後在 BAT 從事自動化運維,見證BAT 運維自動化從無到有。擅長系統底層、分布式系統開發,熱衷於開源運動,給 memcached、SETI@Home 等多個開源項目貢獻過代碼。
自動化運維的一點體會
不同公司的需求差異
- 監控?
- 配置管理?
- 自動部署?
- 調度系統?
- Iaas / Paas?
- or more?
不同規模、不同行業的公司存在需求差異
自動運維的幾個基礎
- 一本清晰的賬本 (準確的基礎信息)
- 一個靠譜的監控
- 一個靠譜的任務執行系統
自動運維的基礎
靠譜的監控
- 本質:對被監控對象的指標進行狀態判定
一臺服務器上 nginx 服務的連接數 - 需要支持網絡層、服務器、服務、業務四層
- 精準智能
- 適應機器 的規模與增長速度
- 高效、高可用性
- 支持紛繁多樣的服務
性能與可擴展
模塊內性能
- 通信
長連接
Epoll - 多進程/線程
高並發
並發度可調
通信層剝離
- 統一的高性能通信框架與通信協議
- 業務開發簡單清晰
多進程工作模型
- 單進程IO復用接收
- 多進程(worker)並發處理
模塊功能精簡,便於組合
橫向擴展
- 任意環節支持橫向擴展
- 無狀態、負載均衡
- 可支持級聯
整體處理性能線性增長
- 多路多點部署
高可用
去中心化
- 無單點
- 負載均衡
- 橫向擴展
- 多點部署
- 自動切換
- 每個環節自動切換
- WRR
- 多路冗余
- 無狀態
- Supervise保證存活
數據傳輸可靠性
- 傳輸過程中多次確認
采集到匯聚
轉發到邏輯判斷
轉發到存儲 - 外部狀態監控
傳輸起始端健康檢查
每個環節的外部監控 - 內部判斷
模塊內擴展
模塊間可擴展
- 采集
- 匯聚轉發
- 過濾
- 報警
- 離線存儲
- 挖掘分析
- 展示
模塊間可擴展性
七巧板搭配
- 匯聚後的多路傳輸
- 級聯
功能擴展簡單
- 存活監控
- 端口監控
- 集群
核心模塊高度復用
- 模塊之間聯動反饋
- 互聯互通
- 存活監控
模塊之間聯動反饋
- 互聯互通
- 存活監控
功能擴展
- 基礎監控 => 自定義監控
- 端口 =>語義監控
- URL監控 => HTTP語義監控
- URL監控 => 訪問質量監控
- 服務器指標監控 => 集群指標監控
監控支撐業務擴展
預算與成本分攤 ---offline
- 結合基礎信息管理
- 資源使用與服務器選型
資源管理 --- offline
- 空閑資源挖掘
- 資源統計分析與基礎信息校正
- 容量管理
空閑資源利用 --- offline
- 存儲資源
- 計算資源
調度決策的基礎 --- online
- 報警觸發簡單任務執行
- 關聯報警挖掘
- 與業務評估模型結合
自動運維平臺的一個架構簡圖
詳情:http://mp.weixin.qq.com/s/THG8WJeLWR3U47BoDLGlWg
明晚九點|一線互聯網公司服務器監控系統架構分享