背景

qGPU 是騰訊雲推出的 GPU 共享技術,支援在多個容器間共享 GPU卡,並提供容器間視訊記憶體、算力強隔離的能力,從而在更小粒度的使用 GPU 卡的基礎上,保證業務安全,達到提高 GPU 使用率、降低客戶成本的目的。

qGPU on TKE 依託騰訊雲 TKE 對外開源的 Nano GPU 排程框架,可實現對 GPU 算力與視訊記憶體的細粒度排程,並支援多容器共享 GPU 與多容器跨 GPU 資源分配。同時依賴底層強大的 qGPU 隔離技術,可做到 GPU 視訊記憶體和算力的強隔離,在通過共享使用 GPU 的同時,盡最大可能保證業務效能與資源不受干擾。

功能優勢

qGPU 方案通過對 NVIDIA GPU 卡上任務更有效的排程,達到給多個容器共享使用的目的,支援的功能如下:

靈活性:使用者可以自由配置 GPU 的視訊記憶體大小和算力佔比

雲原生:支援標準的 Kubernetes,相容 NVIDIA Docker 方案

相容性:映象不修改/CUDA 庫不替換/業務不重編,易部署,業務無感知

高效能:在底層對 GPU 裝置進行操作,高效收斂,吞吐接近0損耗

強隔離:支援視訊記憶體和算力的嚴格隔離,業務共享不受影響

技術架構

qGPU on TKE 使用 Nano GPU 排程框架,通過Kubernetes擴充套件排程機制,同時支援 GPU 算力與視訊記憶體資源排程。並且依賴 Nano GPU 的容器定位機制,支援精細化 GPU 卡排程,同時支援多容器 GPU 卡共享分配與多容器 GPU 跨卡分配。

qGPU 直接採用英偉達 GPU 底層硬體特性進行排程,實現細粒度算力隔離,打破傳統上 CUDA API 劫持方案的只能以 CUDA Kernel 為粒度進行算力隔離的限制,提供更好的 QoS 保證。

客戶收益

  1. 多工靈活共享 GPU,提升利用率
  2. GPU 資源強隔離,業務共享不受影響
  3. 完全面向 Kubernetes,業務使用零成本

未來規劃

支援細粒度資源監控:qGPU on TKE 將支援對 Pod 和容器級的 GPU 使用率採集,實現更細粒度的資源監控和與 GPU 彈效能力的整合

支援在離線混部:qGPU on TKE 將支援線上業務和離線業務的高低優先順序混部,最大限度地提升 GPU 利用率

支援 qGPU 算力池化:基於 qGPU 的 GPU 算力池化,實現 CPU、記憶體資源與異構計算資源解耦

內測申請

qGPU 已經開放免費內測,歡迎新增騰訊雲原生小助手:TKEplatform,備註”qGPU內測申請“進行試用!

關於我們

更多關於雲原生的案例和知識,可關注同名【騰訊雲原生】公眾號~

福利:公眾號後臺回覆【手冊】,可獲得《騰訊雲原生路線圖手冊》&《騰訊雲原生最佳實踐》~

【騰訊雲原生】雲說新品、雲研新術、雲遊新活、雲賞資訊,掃碼關注同名公眾號,及時獲取更多幹貨!!