1. 程式人生 > >首個智慧運維專案開源!騰訊織雲Metis在OSCAR開源先鋒日宣佈開源

首個智慧運維專案開源!騰訊織雲Metis在OSCAR開源先鋒日宣佈開源

10月20日,騰訊織雲Metis 智慧運維學件平臺在OSCAR開源先鋒日上宣佈,正式對外開源。Metis 是AIOps(Algorithmic IT Operations),即智慧運維領域的首個開源產品。智慧運維主張通過演算法從海量運維資料中學習摸索規則,逐步降低對人指定規則的依賴,進而減少人為失誤。

OSCAR 開源先鋒日由中國資訊通訊研究院主辦,中國信通院雲大所所長何寶巨集,中國信通院雲大所云計算部副主任慄蔚,騰訊雲副總裁趙建春,騰訊雲運營部總經理肖世廣共同參與Metis開源釋出儀式。



(騰訊織雲“Metis”開源專案正式釋出)

騰訊雲副總裁趙建春表示:“人工智慧與運維的結合有了AIOps的新概念,如何在智慧運維領域尋求到新的突破,從傳統 API 轉向運維學件,將騰訊海量數量訓練出來的模型貢獻開源社群和業內,我想這就是織雲Metis 智慧運維學件開源的意義,和大家共建 AI 運維場景,讓人工智慧和運維緊密結合。”



(騰訊雲副總裁趙建春)

在“騰訊織雲Metis 智慧運維學件平臺”這一命名中,“學件”的概念由南京大學周志華教授提出。學件 = 模型 + 規約,具有可重用、可演進、可瞭解的特性。在此基礎上,騰訊雲副總裁趙建春先生進一步提出“運維學件”的概念,亦稱 AI 運維元件,強調其具備對運維場景智慧化解決方案的記憶能力。

“織雲”指的是騰訊智慧一體化運維平臺,而“Metis”取名自希臘神話中的智慧女神墨提斯。隨著網際網路業務的急劇膨脹和服務型別的多樣化發展,人為指定規則的不足之處逐漸凸顯,促使近兩年來智慧運維領域的高速發展。織雲Metis是聚焦在智慧運維的應用實踐集合,旨在通過一系列基於機器學習的演算法,對運維資料進行分析、決策,從而實現自動化運維的更高階段。

由於社交類業務種類豐富、規模龐大的特點,騰訊搭建了充足的IT基礎設施,為實現多維度、深層次地運維公司各類業務在發展互動過程中產生的海量運維資料,Metis應運而生。

如今,Metis在運維質量、效率、成本三個方面都落地了眾多智慧運維實踐,逐步構建出成熟的智慧化運維場景,具體表現為質量保障、效率提升、成本管理、智慧檢測、通用模型和規則學習6個方面。

質量保障: 利用機器學習技術,進行異常檢測、故障定位、瓶頸分析等,可在無人工干預下,智慧地保障業務穩定執行。如無閾值智慧監控、DLP生死指標監控、多維根因分析。

效率提升:基於自然語言處理、機器學習技術,進行智慧問答、智慧變更、智慧決策,可顯著提升運維效率。如Metis的智慧諮詢機器人、輿情監控、叢集智慧負載均衡、資料庫引數調優、容量預測。

成本管理:基於大資料智慧分析技術,進行資源(裝置、頻寬、儲存)管理,可迅速分析資源使用的明細,並通過橫向大資料對比識別可優化點。如硬碟生命週期預測。本次Metis率先開源的無閾值智慧監控學件,是從無監督+有監督學習的角度來解決時序資料的智慧檢測問題。

智慧檢測:運維人員不需要再去設定監控閾值,模型能夠對異常情況做智慧判決,直觀告知檢測結果是正常還是異常。通常而言,閾值的監控包含最值、同比、環比等維度設定,此檢測方案在檢測初期效果較好,但是隨著業務發展和規模壯大,就會需要付出較高的人力成本去維護合適的閾值範圍,對於大規模發展性業務得不償失。智慧檢測的方案是基於統計判決、無監督和有監督學習對時序資料進行聯合檢測,通過統計判決、無監督演算法進行首層判決,輸出疑似異常,其次進行有監督模型判決,得到最終檢測結果。這個過程就摒棄了閾值方式帶來的問題。

通用模型:智慧檢測的模型由騰訊織雲多元化的海量業務樣本訓練而成,比較適合複用在網際網路行業的時間序列檢測中。有監督的檢測效果取決於標註樣本的準確性和種類豐富性,通過樣本庫管理功能積累了大量的正負樣本、分為測試集和訓練集,通用模型是經過海量訓練集的樣本資料訓練而來,涵蓋較全面的樣本分類。可以幫助一些使用者避免掉缺乏訓練資料所帶來的難點,使用者可直接載入通用模型進行檢測。

規則學習:實踐過程中也會遇到較個性的業務場景,千人千面,不同的使用者對異常的判斷標準也不盡一致,因此支援標註反饋功能,使用者可根據標註資訊進行訓練,生成新的檢測模型,進而掌握新的業務規則。

Metis無閾值智慧監控學件在騰訊內部已承載了超過240萬個業務指標的異常檢測,它經過海量監控資料的打磨,在異常檢測和運維監控領域具有廣泛的應用性,可取代傳統的閾值檢測方式,達到智慧檢測時序資料的異常,還能結合業務策略對異常資料進行告警推送。

秉承騰訊開源的理念,Metis將打造一個開放的學件平臺,陸續開源時間序列指標預測、主機異常智慧分析、MySQL異常智慧分析、硬碟生命週期預測等其它智慧運維學件,集合廣大使用者在智慧運維領域的建設經驗和實踐,豐富完善針對質量、效率、成本三個方面的AI學件,搭建完備的運維場景,並將在未來相容其它監控領域的開源產品,如Zabbix、Nagios、Open-Falcon等。

近年來,騰訊在開源社群越發活躍,自2010年起,騰訊對內採取“開放、共享、合力開發”的研發模式;對外實現自主開源,並積極參與社群工作,相繼加入Hyperledger、LF Networking和開放網路基金會,成為LF深度學習基金會首要創始成員及Linux基金會白金會員。本次Metis開源,於騰訊,是其開放戰略在技術領域的又一實踐;於行業,則將填補智慧運維領域的開源空白,並匯聚眾力,促進運維技術的突破與發展。