1. 程式人生 > >使用雲監控實現GPU雲服務器的GPU監控和報警(下)-雲監控插件監控

使用雲監控實現GPU雲服務器的GPU監控和報警(下)-雲監控插件監控

運行 監控 proc images napi https bytes ace enc

摘要: 目錄 使用雲監控實現GPU雲服務器的GPU監控和報警(上) - 自定義監控 使用雲監控實現GPU雲服務器的GPU監控和報警(下)-雲監控插件監控 1 背景 上一篇文章我們介紹了如何使用阿裏雲雲監控服務提供的自定義監控功能,利用自定義監控提供的API或者SDK,通過自定義腳本可以將GP.

1 背景
上一篇文章我們介紹了如何使用阿裏雲雲監控服務提供的自定義監控功能,利用自定義監控提供的API或者SDK,通過自定義腳本可以將GPU雲主機內采集的GPU數據上報,在雲監控控制臺上添加相應的GPU監控項,就可以實現對指定GPU實例內指定GPU的相應數據進行監控,對相應監控項設置相應數據的報警規則,就能實現監控數據的自動報警。

     但是自定義監控的采集腳本需要用戶自己實現,並且雲監控控制臺上自定義監控的展示維度也很有限,只能查看指定VM指定GPU的某個數據。

     通過使用阿裏雲提供的雲監控插件,可以一鍵安裝就實現GPU指標的采集和上報,同時展示維度上可以與目前的ECS一樣獲得更多維度的展示,比如Dashborad監控大盤,可以監控集群級別的GPU指標,主機監控則可以在一個頁面顯示該實例所有GPU的所有監控指標。

本文將會詳細介紹如何通過安裝雲監控插件來實現更全面、更易用的GPU雲監控和報警。

2 雲監控Agent安裝
雲監控插件從1.2.28版本開始支持GPU數據的采集。雲監控Agent(即雲監控插件)的安裝可以參考雲監控官方使用文檔:雲監控Agent安裝。同時支持Linux和Window操作系統。

也可以在雲監控控制臺主機監控部分一鍵點擊安裝最新的雲監控插件,並查看雲監控插件的版本,如下圖:

技術分享圖片

3 如何在雲監控控制臺查詢GPU監控數據
目前只有GPU計算型實例支持GPU雲監控,實例必須要安裝GPU驅動和雲監控插件的1.2.28以上版本,即可在主機監控查看GPU相關監控數據、配置報警規則,或在Dashboard中配置監控圖表。

3.1 主機監控
在雲監控控制臺中進入主機監控,進入需要查看監控數據的實例,點擊GPU監控標簽頁,就可以看到該實例所有GPU的GPU使用率、編碼器/×××使用率、顯存使用量、GPU功率、GPU溫度等監控數據。

技術分享圖片

3.2 Dashboard中自定義監控大盤

可以在雲監控控制臺Dashboard中創建自定義GPU監控大盤,以多種圖表類型大盤展示分別分組、實例、GPU維度的各個GPU指標。

技術分享圖片

3.2.1 折線圖
下圖是以折線圖形式展示特定分組的實例維度GPU顯存使用量的平均值,可以一目了然的查看相關實例的顯存使用量波動情況。

技術分享圖片

下圖是以折線圖形式展示特定分組的分組維度GPU溫度的平均值,可以一目了然的查看指定分組相關實例的GPU溫度波動情況。

技術分享圖片

3.2.2 TopN表格
下圖是以TopN表格形式展示實例維度GPU溫度的最大值,並以倒序方式展示,可以一目了然的查看用戶賬號下所有GPU實例的實時溫度情況,並確定GPU溫度最高的實例。

技術分享圖片

下圖是以TopN表格形式展示實例維度GPU功率的平均,並以倒序方式展示,可以一目了然的查看用戶賬號下所有GPU實例的實時功率情況,並確定GPU功率最高的實例。

技術分享圖片

TopN表格形式同樣能非常方便的查看各個實例的GPU利用率和編碼器/×××利用率以及顯存使用情況,從而判斷業務運行是否正常,以及判斷資源利用是否充分。

4 如何設置報警規則
新增的GPU監控項添加報警規則方式同ECS的其他指標一樣,可以針對某一特定指標設置報警規則,如下圖:

技術分享圖片

推薦通過創建模板後將模板應用於分組的方式批量添加GPU報警。查看報警模板最佳實踐。

5 監控項說明
GPU相關監控指標提供3個維度的數據

5.1 GPU維度監控項
GPU維度的指標,采集每個GPU層面的監控數據。

5.2 實例維度監控項
實例維度指標對單個ECS實例上的多個GPU監控數據做最大值、最小值、平均值的聚合。便於查看實例層面的整體使用情況。

MetricName 單位 名稱 dimensions
group_gpu_decoder_utilization % 分組維度GPU×××使用率 groupId
group_gpu_encoder_utilization % 分組維度GPU編碼器使用率 groupId
group_gpu_gpu_temperature ℃ 分組維度GPU溫度 groupId
group_gpu_gpu_usedutilization % 分組維度GPU使用率 groupId
group_gpu_memory_freespace Bytes 分組維度GPU顯存空閑量 groupId
group_gpu_memory_freeutilization % 分組維度GPU顯存空閑率 groupId
group_gpu_memory_totalspace Bytes 分組維度GPU顯存總量 groupId
group_gpu_memory_usedspace Bytes 分組維度GPU顯存使用量 groupId
group_gpu_memory_usedutilization % 分組維度GPU顯存使用率 groupId
group_gpu_power_readings_power_draw W 分組維度GPU功率 groupId

5.3 分組維度監控項
分組維度指標對單個應用分組裏的多個ECS 實例的監控數據做最大值、最小值、平均值的聚合。便於查看集群層面的整體使用情況。

MetricName 單位 名稱 dimensions

group_gpu_decoder_utilization % 分組維度GPU×××使用率 groupId

group_gpu_encoder_utilization % 分組維度GPU編碼器使用率 groupId

group_gpu_gpu_temperature ℃ 分組維度GPU溫度 groupId

group_gpu_gpu_usedutilization % 分組維度GPU使用率 groupId

group_gpu_memory_freespace Bytes 分組維度GPU顯存空閑量 groupId

group_gpu_memory_freeutilization % 分組維度GPU顯存空閑率 groupId

group_gpu_memory_totalspace Bytes 分組維度GPU顯存總量 groupId

group_gpu_memory_usedspace Bytes 分組維度GPU顯存使用量 groupId

group_gpu_memory_usedutilization % 分組維度GPU顯存使用率 groupId

group_gpu_power_readings_power_draw W 分組維度GPU功率 groupId

6 如何通過OpenAPI查詢GPU監控數據
可以使用OpenAPI來查詢GPU監控數據。參考文檔:https://help.aliyun.com/document_detail/51936.html

參數說明:Project=acs_ecs_dashboard,Metric及Dimensions參考上述監控項表格中的GPU指標。

原文鏈接請添加鏈接描述
本文為雲棲社區原創內容,未經允許不得轉載。

使用雲監控實現GPU雲服務器的GPU監控和報警(下)-雲監控插件監控