AIOps實踐場景:京東智慧巡檢機器人機房上崗!
隨著業務量的不斷增大,資料中心需要管理物件的數量、規模及複雜度都呈現指數級增長,傳統人工干預、保姆式管理監控和故障處理的方式已無法滿足業務需要。儘管監控系統可以掌握全方位的資料,但還是需要有人值守,這樣就導致潛在隱患不能及時被發現,對告警的響應滯後。較大規模的機房,每日需要多次人工巡檢,每次巡檢都需要耗費不少工時,人工漸漸跟不上規模的增長和狀態的快速變化。
今年 6 月,京東金融釋出了一款機房智慧巡檢機器人。這是京東金融進軍機器人產業的第一款產品,可實時保障機房穩定安全執行,提高機房和資料中心的智慧化管理水平,同時大幅度降低運維成本。據說,這款機器人在 6.18 期間已經在京東金融的機房和資料中心經受了嚴苛的實戰檢驗。
京東智巡機器人正式釋出當天,很多媒體已經對此做了基本介紹,但研發機器人有哪些難點需要解決,巡檢工作如何開展,使用效果如何,有哪些不完善的技術等方面,還未見具體報道。就此,InfoQ 採訪到了京東金融的相關負責人,請他來具體聊聊這款智慧巡檢機器人。
InfoQ:京東金融和京東是什麼關係?在 618 期間,京東金融起了什麼作用?
京東金融:京東金融於 2013 年 10 月開始獨立運營,目前,每天新增資料量達 800TB。
618 是包含電商、支付、金融、物流等在內的綜合大戰。京東金融依託科技能力,為商家和使用者提供支付、技術、資料等全方面支援,是 618 的強力後盾。一方面,京東金融以過硬的技術應對 618 期間高流量、高併發的挑戰,確保海量交易的支付體驗和保障服務。並通過人工智慧、大資料等技術,為使用者提供定製化、多元化的優惠福利,以智慧營銷、智慧客服等服務直接帶動電商消費。另一方面,京東金融供應鏈金融為商城體系的商家們解決 618 期間的資金需求,為合作伙伴輸出科技能力,讓更多的金融機構、商家參與到 618 全民購物盛宴中,間接帶動電商消費。
InfoQ:傳統機房和資料中心的運維工作量有多少?介紹下機房和資料中心裝置的基本情況?傳統的人工巡檢要做哪些工作?
京東金融:目前傳統機房和 IDC 資料中心人工運維主要工作集中在三個方面:
-
一是日常溫度、溼度、氣體,粉塵、環境異物、除錯車擺放情況等環境檢查;
-
二是伺服器、儲存及網路裝置的狀態檢查和維修管理;
-
三是 UPS、電力、空調、冷站等基礎運維巡檢管理。
目前大量機房的裝置都存在一定的問題,其中裝置型別多、裝置老化、故障頻發以及集中爆發,給運維生產帶來很大的隱患和安全問題。而很多問題又不能通過運維監測系統及時發現,所以目前都需要進行人工巡檢。
一般較大的機房模組是 24 小時巡檢 4 次,其中裝置故障級別的巡檢 2 次,以京東金融機房為例,200 組機櫃一次巡檢大約需要 2 個小時左右。有些機房模組要求是每隔 2 小時巡檢一次。
InfoQ:為什麼會想到要研發智慧巡檢機器人?最初是想能解決什麼問題?
京東金融:目前,雲端計算資料中心建設規模持續增加,基礎設施的運維工作量大,在智慧運維管理上有強烈需求。而京東金融在 AI、IOT 及大資料積累了業界領先的演算法能力,包括人臉識別、ReID、計算視覺、語音融合及資料探勘等技術。智慧巡檢機器人正可以融合這些技術,滿足行業需求。
從京東智巡機器人一代開始,我們團隊就瞄準了特種巡檢機器人這個細分領域,主要提升機房及資料中心的巡檢效率和智慧化管理水平,避免人工的錯檢和漏檢,對巡檢資料進行數字化管理和高效利用。另外,機房及資料中心,日常會有大量的第三方人員,出入機房進行裝置檢修、更換,對於安全區域及監控預警也有很強的需求,針對這一場景,京東智巡增加了智慧安防、智慧跟隨、預約識別等功能。
InfoQ:智慧巡檢機器人用到了哪些技術?它如何完成機房的巡檢工作?
京東金融:京東智巡機器人,主要由底盤導航運動控制、機械結構運動控制、多感測器融合、機器人系統、HMI 人機互動系統、後臺管理服務平臺等硬體及軟體組成。
正如在前面提到的,京東智慧巡檢機器人應用了 SLAM 定位導航控制、計算機視覺、OCR 識別、人臉識別、ReID 識別(行人再識別),RFID 識別(射頻識別),UWB 定位、邊緣計算及神經網路晶片、NFC 卡證讀取等技術,機器人能實現自動導航與避障、自主充電、環境資訊檢測(溫溼度、粉塵、氣體、噪聲等)、裝置資訊檢測(表面溫度、指示燈狀態、開關位置、儀表盤讀數、屏顯文字等)人員驗證及跟隨等功能,並可通過實時資料傳輸,在巡檢管理後臺進行遠端監測和結果查詢,檢視生成多維分析報告和機房及裝置畫像資訊。
京東智巡機器人,有多種工作模式,其中自動巡檢工作模式如下:按照巡檢計劃自動執行巡檢任務,自主精準導航到巡檢點;通過多自由度機械臂及運動機構,在複雜場景下二次精確定位;通過搭載的視覺裝置及多感測器,在機器人端完成巡檢裝置識別、環境感知及後處理工作;任務完成後,巡檢資訊上傳至後臺管理雲平臺,進行資料加工分析和儲存。
InfoQ:研發智慧巡檢機器人有什麼難點需要解決?
京東金融:
一、機器人“行走“的問題。首先,機器人底盤的定位、導航技術需要很深厚的技術積累。而且針對特定的工作場景,還需要做相應的路線規劃和導航策略。有的場景,比如機房場景,需要故障場地配合做一些硬體改造。
二、 機器人“看“的問題。即使擁有強大的計算機視覺演算法,但面對實際場景中光線複雜多變,被檢目標種類及標準多而雜的情況,要做到全面、高效的檢測效果是具有難度的。為保證機器人能“看到”所有的檢測目標,機器人的形態結構也需要做到多維度、可升降調節的靈活性。
三、機器人的“協調性”問題。機器人是一個龐大的系統,任何一個功能都需要軟硬體整個系統的無縫配合,機器人研發需要攻克“點”“線”“面”。系統間的互動、使用者與機器人互動,都需要根據具體的場景和需求進行深入研究,在不斷的演算和探索中才能得出最優的方案。
InfoQ:傳統人工運維,隨著經驗的增加,效率和準確率都會提高,智慧巡檢機器人是否也具備可學習性呢?還是隻具備識別功能?
京東金融:目前京東智巡機器人大規模的演算法模型訓練都集中在後端管理平臺,模型升級後會同步機器人端,提升機器人識別處理能力,通過模型壓縮和加速,大大提升了識別速度和準確率,以適應更多的場景。
機器人端目前還只是具備識別能力,我們也在開展末端模型訓練這方面的技術研發工作。
InfoQ:智慧巡檢機器人在京東金融的具體應用如何?
京東金融:京東智巡機器人,在今年 618 接受了第一次大考,在京東金融機房完成了夜間一班次的自動巡檢,京東智巡機器人各個功能模組工作達到了產品預期效果,巡檢記錄及結果與京東金融自動化運維平臺實現了功能服務及資料的打通,同樣在使用過程中也收集了新的需求和場景。
InfoQ:它的使用效果如何?和傳統人工檢測的差異是什麼?
京東金融:京東智巡機器人的使用效果主要在裝置檢測、巡檢記錄、環境檢測及熱力分佈上提高了巡檢速度和效率,和傳統人工巡檢相比,在識別準確率及環境資料上彌補了現在人工檢測的標準缺失,讓機房巡檢智慧化、規範化、標準化、高效化。
InfoQ:有了智慧巡檢機器人之後,人以什麼角色參與其中?
京東金融:目前,京東智巡檢機器人應用後,運維人員的巡檢頻次和巡檢內容會減少,新增了機器人管理人員的角色,主要工作是規劃巡檢計劃,響應機器人預警處理,同時可根據機器人的分析資料優化機房管理。
InfoQ:智慧巡檢機器人有沒有市場化的打算?
京東金融:京東智巡機器人,目前一代已產品化,二代產品及多款不同型號產品正在研發中,很快也會定型生產。市場化方面,京東智巡機器人將持續打磨產品,今年將推出更多型號不同行業場景的智慧機器人。
InfoQ:如何看待智慧巡檢機器人的發展趨勢?
京東金融:很多行業都存在大量檢測性工作的需求,尤其是電力、通訊、安防等重視安全性的行業。這類工作頻次高、重複性強,但傳統的人工巡檢難以做到精確化、標準化、數字化。而智慧巡檢機器人,作為專業級服務機器人,正適合完成這類工作,有助於降低巡檢工作的人力成本,提升工作效率和管理水平。
據易觀釋出的《中國服務機器人市場趨勢預測》顯示,2018 年中國服務機器人市場規模將達到 122.9 億元人民幣,同比增長 27.2%;2019 年則將繼續保持高速增長,市場規模有望達到 158.4 億元。專業級服務機器人是人工智慧技術的最佳載體,專業級市場將成為服務機器人市場規模增長的主力,是潛力巨大的藍海市場。
京東金融在推出智慧巡檢機器人之後,初期將主要致力於解決機房和資料中心的巡檢痛點,進軍金融、通訊、電力等重點行業的機房巡檢市場。未來還將進軍電力、石油化工、銀行、安防等行業市場,推出變電站巡檢機器人、油氣井巡檢機器人等產品,讓人工智慧更好地服務實體經濟。
活動推薦
由 InfoQ 主辦的第四屆 CNUTCon 全球運維技術大會,全方位、多角度向參會者闡述智慧運維時代的有哪些變革,Twitter、RIOT Games、BAT、華為等國內外一線大廠有哪些新技術和新實踐。目前,大會 8 折限時優惠,立減 720 元,團購更優惠!掃描下方二維碼 瞭解詳情,有任何問題歡迎諮詢 Joy 小同學,電話:13269078023(微信同號)。