智慧運維案例系列 | 袋鼠雲日誌助力雲南某金融機構日誌平臺建設,實現核心業務系統運維智慧化
一、“黑匣子”:我很小,但我很重要
沒錯,就是飛機的“黑匣子”。黑匣子是記載飛行資料和駕駛艙通話的裝置,它可以記載飛機停止作業前25小時的飛行資料以及30分鐘到2小時不等的通訊錄音。
世界上所有的空難發生原因都是經過黑匣子分析出來的,因而它就成了空難事故的見證和“前車之鑑”,黑匣子雖然在平常不起眼,可是卻是飛機上一個非常重要的部件,也是飛機出事後唯一重要的部件。
二、日誌大資料平臺,打造智慧的雲端“黑匣子”
網路裝置、系統及服務程式等,在運作時都會產生一種叫 log 的事件記錄;每一行日誌都記載著日期、時間、使用者及動作等相關操作的描述。
和黑匣子一樣,通過對日誌資料的分析,我們可以對系統裝置進行故障定位、瞭解APP和電商網站上的使用者行為習慣和消費偏好、對員工的IT操作行為進行內部審計,像之前程式設計師離職為了洩憤刪除公司寶貴資料的行為,可以進行溯源查詢...
藉助雲端計算的強大計算能力和實時大資料處理分析技術,將日誌資料和其他資料比如業務資料、資料庫資料、外部爬取資料等進行關聯交叉分析後,可實現
總而言之,袋鼠雲日誌就是這樣一款具有實時日誌大資料分析功能的、智慧化的、雲端“黑匣子”。
三、雲南省某金融機構的日誌大資料平臺建設實踐
雲南省某金融機構,業務系統的迅速發展,極大地提升省聯社業務運營能力的同時,本身的複雜性也大大增加,系統產生的事件及問題不斷增多,各項事件和問題的都存在很強的關聯性、依賴性。
但是各系統 資料孤島 的狀態直接導致了運維資料難以關聯分析,拉長了解決問題的時間週期,對該金融機構自身的運維能力帶來新的挑戰。
2016年9月,中國銀監會印發《銀行業金融機構全面風險管理指引》指出:
第四十三條 銀行業金融機構應當建立與業務規模、風險狀況等相匹配的信>息科技基礎設施。
第四十四條 銀行業金融機構應當建立健全資料質量控制機制,積累真實、準確、連續、完整的內部和外部資料,用於風險識別、計量、評估、監測、報告,以及資本和流動性充足情況的評估。
在這樣的背景下,該金融機構經過了長期的考察和商討,最終選擇了為多家知名企業搭建運維資料分析平臺的智慧運維專家——袋鼠雲。
從客戶的實際情況出發,袋鼠云為客戶構建了完整的日誌平臺建設方案,並一起打造運維資料分析平臺。
1. 方案設計
在與該金融機構深入的溝通和交流中,我們發現該金融機構當前的運維建設還是比較傳統的:主要以IT資源(包括硬體、軟體和網路裝置等)的管理為核心,資源的資訊非常完備,但是對於資源上面支撐的業務應用執行狀況的採集和分析相對缺乏。
在銀行的業務應用系統中, 大量的交易流水、業務流水和交易日誌中包含了對於業務執行狀況最細節的描述, 如果將這些資料收集起來,合理地加以處理和分析,就能實時、準確地反映當前業務執行狀況。同時,將該業務涉及的IT資源使用狀態也一併收集,並進行關聯分析,從而真正瞭解 IT 資源如何對業務做出貢獻, 並能迅速地根據業務問題定位 IT 資源問題。
根據上述深入的調研收穫,袋鼠雲提出了 6個建設目標,希望幫助該金融機構搭建自己的集中化運維資料分析平臺:
- 整合資料,建設統一採集平臺,進行資料採集和管理,包括各監控系統數 據 ( 例如網路映象資料、Tivoli資料等 ) 、日誌資料、資料庫資料等;
- 建設基於流式計算的資料處理分析平臺 ,挖掘資料中的有效資訊進行關聯分析;
- 對資訊進行 視覺化 呈現;
- 實現圖形、簡訊、微信等 多種方式預警 ;
- 運維資料分析平臺應 具備高效、可擴充套件、易於管理、維護 等特點;
- 節省整體運營成本。
整個運維資料分析平臺建設的核心思想在於通過實時採集業務執行資料(如客戶交易流水、業務執行流水、日誌等) ,以及實時系統執行資料 ( 包括應用伺服器、中介軟體、資料庫和主機等 ) ,然後通過一定的資料模型將這些資料關聯起來,以業務的角度動態展示,並使用一系列演算法進行線上和離線分析,並使系統根據分析結果進行自動化處理,從而達到將企業業務執行狀況和IT資源協同監控和管理的目的。
從圖中我們可以看到整個系統工作的邏輯過程。
首先是資料採集伺服器從業務系統和其對應的IT資源中,實時獲取相應的執行狀態資料,經過預處理之後,向兩個方向傳送:
- 一個方向是監控分析伺服器,在其中對資料進行實時處理,主要是報表引擎對資料進行格式化之後,產生動態報表,業務規則引擎判斷資料是否具有某種特點從而啟用對應的業務規則;
- 另一個方向是將這些原始資料儲存在適合流式資料的資料庫中,並結合相應的管理資料,由資料分析引擎進行更為全面和複雜的資料分析。系統提供一個 web 應用介面,使得監控人員、管理人員和資料分析人員能夠通過標準的IE 瀏覽器訪問應用。
2. 方案效果
- 及時掌握業務運轉狀況,避免誤操作
通過實時動態展示業務的執行狀況和關鍵資訊,幫助管理人員及時掌握當前業務執行狀態,觀察業務執行的變化趨勢,並快速判斷業務是否正常,做好提前應對措施。 - IT執行狀況視覺化
直觀地展現為實現某個業務功能/能力,IT資源以何種方式運轉。通過以拓撲圖展現業務服務、應用和底層IT系統構架部件之間的動態關係,增進對各種IT 元素的掌控和理解,並及時發現業務瓶頸。 - 從業務角度管理IT資源
幫助IT部門實時瞭解、掌控業務部門對IT服務的使用體驗,方便IT部門根據業務影響和 SLA(Service Level Agreement)來對IT服務進行管理,並及時進行 IT 資源的優化配置。 - 加快問題解決
主動地幫助你在第一時間發現問題,以便在問題對使用者造成不利影響之前,及時得到隔離、診斷和修復,把它們對業務的干擾降到最低。同時支援自動處理能力,提高管理人員效率的同時降低人為操作的風險。 - 實現業務-服務-資源相互依賴關係的深入分析
通過系統內部的依賴關係,結合業務和IT 資源等大資料,挖掘內部的相互關係,深入分析業務問題的根源,從而實現IT 和業務的全面融合。
3、客戶體驗
通過為IT 運營部門提供可以全面瞭解業務/IT運形狀況的儀表板和資料視覺化大屏, 幫助使用者主動根據業務影響對IT服務進行管理。
例如,儀表板通過顏色來顯示業務/IT資源的健康狀況和繁忙層度,當某個業務出現了問題,其狀態就會顯示紅色,對應的健康度指標就會指向相應的區間。
大屏資料指標:現金流向、交易情況、轉賬情況、交易金額、響應速度、成功率、ATM機交易排名、信貸監控
可以在一個視窗中觀察到該業務相關的IT資源的狀況, 如果對哪個部分感到疑慮,就可以立即點選該資源向下逐層鑽取,最終發現問題,然後及時地進行修復,以免問題進一步惡化,而造成服務中斷。
整個運維資料的集中,尤其是對日誌的整合處理,把以前無序雜亂的日誌整合解析,形成完整的交易事件,解決了業務排障的大問題, 通過平臺提供的搜尋功能,業務排障從以前的幾個小時縮短到幾分鐘。
以前由於主機資源的限制,主機上只能保留最近交易日誌,其他日誌備份到帶庫。給後續查詢帶來很大麻煩,如需要恢復環境準備,恢復效率低,查詢多日的需要恢復多次,同時資料量大,導致恢復時間長,限制有了大資料儲存平臺, 日誌可以長期保留,滿足了對櫃員操作的審計和對業務分析的回溯。
後續,袋鼠雲將會為省聯社進一步提供智慧運維服務,保障省聯社金融業務的高效執行和IT運維的智慧化程序。