浙江移動微服務監控,秒級響應10億級使用者訪問
《奇點臨近》一書對技術進化有這樣的描述,“技術正以指數級速度擴充其能力,創新者也在尋求成倍改進的能力。”“創新是乘法而不是加法。技術將繼續加速發展,並將在第五紀元完成控制自己的前進步伐。”技術如何控制自己的步伐我們不得而知,現階段,我們看到越來越多的企業在利用新技術,不斷自我進化,並服務於客戶。
浙江移動7*24小時“技術流”微服務不打折
作為中國移動的重要分支,浙江移動一直以“追求客戶滿意”為宗旨。為了更好地服務使用者,浙江移動2015年便搭建了微服務執行監控平臺,只是隨著新技術的發展,該平臺在一些方面稍顯滯後,如缺乏內部核心指標的監控、異常分類及跟蹤能力不足、呼叫鏈程式碼對應用有侵入、缺乏實時調控管理手段等問題,平臺的升級改造被提上日程。
亞信科技作為浙江移動多年的合作伙伴,對該平臺優缺點有很深的瞭解,在接到優化需求後,專案組在原有系統基礎上,基於容器技術提出了一套完整的升級改造方案,通過修改探針埋點等方式減小了上線過程對業務的影響。而升級後,浙江移動使用者最直接的感受是——真正體驗到了7*24小時的全天候無間斷服務,而不像以前經常因為系統升級而造成業務無法辦理。
該專案贏得了浙江移動的高度認可,專案負責人陳航、褚小川表示:“新平臺修復了運營中的老問題,將業務影響壓到最低,新增了例項執行狀態監控,輸出的指標資料為運維人員提供了更多監控手段,極大縮短了問題定位的時間,同時優化了呼叫鏈資料的處理流程,能在“分鐘級”展現使用者服務呼叫情況,詳細體現每一筆請求的業務呼叫關係,降低了故障排查的複雜度。”
微服務監控平臺改造:開著飛機修飛機
而此前,浙江移動“微服務執行監控平臺”的不足主要體現在:
首先,缺乏內部核心指標的監控:如執行緒、資料庫連線、GC、網路連線、CPU、記憶體等;
其次,呼叫鏈程式碼侵入: Log4x通過硬編碼埋點,對應用有侵入,影響應用以及整個呼叫鏈的效能;
第三,異常分類不足:無法對業務異常進行分析、分類,異常例項跟蹤能力不足,不能通過異常資訊定位問題;
第四,監控支撐處理能力不足:隨著接入系統越來越多,原監控系統擴充套件能力不足。同時,缺少實時調控管理手段,監控指標出現告警時,無法快速介入;
最後,無法展示服務依賴關係:難以理清服務間的相互依賴程度,以及某服務出現異常時造成的影響範圍。
浙江移動希望藉助平臺升級改造來消除以上不足,但前提是不能影響業務的正常執行,其難度比得上“開著飛機修飛機”,任何改動都牽一髮動全身。
亞信科技:以最小代價實現最佳改造
於是, “如何以最小代價完成全面而系統的改造”就擺在了浙江移動合作伙伴——亞信科技這一頭兒,在結合實踐創新的基礎上,以下方案浮出水面:
1,採用無侵入式探針埋點對目標系統進行資料採集,無業務改造量,執行資料通過後期清洗、聚合計算,會形成各類統計指標,並可視化展現在監控首頁;
2,用統計指標說話,通過統計介面、叢集、中心的呼叫情況,作為擴縮容依據;通過成功和失敗次數統計,瞭解系統健康情況,作為系統優化基礎;通過耗時統計,瞭解系統性能,作為系統調優的基礎;
3,優化呼叫鏈,可展現請求的整個呼叫過程,每個呼叫環節的延時,輕鬆排查分散式系統下的異常,並定位問題所在;
4,對異常進行統計、分類,便於快速定位異常,實現高效運維;
5,展示服務的正反向依賴關係,任何新需求開發上線,都可以清晰地評估其影響範圍;
6,監控能力可無限擴容,在對接配置中心後,可線上擴容升級。
亞信科技薛浩表示,“我們以最小代價,完成了對分散式系統架構的全面監控,收集監控資料的耗時幾乎可以忽略不計。我們通過關鍵節點資料的收集,分析業務健康狀態,並通過獲取系統日誌、系統堆疊資訊、GC資訊、執行引數等一系列運維手段,實現故障排查和系統保障。能夠秒級響應10億級使用者訪問量,並能快速無感知的定製客戶需要收集的資料。”
截至目前,全新微服務執行監控平臺的呼叫鏈可覆蓋浙江移動26個業務中心,即全省95%的業務量,所有的遠端呼叫都納入了監控範圍。雖然成績顯而易見,但薛浩認為,“技術的更迭永無止境,正如逆水行舟不進則退,不斷迭代、讓技術始終保持先進性,是我們的堅定追求。”