1. 程式人生 > >阿裏雲異構計算發布:輕量級GPU雲服務器實例VGN5i

阿裏雲異構計算發布:輕量級GPU雲服務器實例VGN5i

比例 原因 com www. log 分享 比較 vid 雲上

阿裏雲發布了國內首個公共雲上的輕量級GPU異構計算產品——VGN5i實例,該實例打破了傳統直通模式的局限,可以提供比單顆物理GPU更細粒度的服務,從而讓客戶以更低成本、更高彈性開展業務。適用於雲遊戲、VR/AR、AI推理和DL教學等輕量級GPU計算場景,更細粒度的GPU計算服務。

輕量級GPU雲服務器是什麽?

輕量級GPU雲服務器是一種新的GPU雲服務器規格族,是通過公共雲的GPU虛擬化技術將分片虛擬化後的GPU資源以虛擬GPU的形式安裝在GPU雲服務器實例中。與常規GPU雲服務器的區別在輕量級GPU雲服務器提供更細力度的GPU計算資源,比如擁有更少的CUDA計算核心,更小的顯存。這樣做的優勢是在業務應用中,業務可以根據資源所需更加靈活的配置GPU計算資源。

技術分享圖片
用戶在使用常規GPU雲服務器的時候遇到了哪些痛點?

GPU的計算顆粒過大:
單顆物理GPU的計算能力越做越強大,但是許多應用需要更小顆粒的GPU計算資源;
常規GPU資源不利於業務自動伸縮:
擁有單顆物理GPU資源的實例在業務部署中會因為要充分利用GPU資源而造成“胖節點”,不利於設計成彈性伸縮架構,缺乏靈活性,無法應對業務快速變化;
常規GPU計算實例無法在線遷移:
常規直通虛擬化的GPU實例,由於架構特性無法支持GPU實例的在線遷移;

輕量級GPU雲服務器與常規GPU雲服務器有哪些不同?

我們從GPU加速器呈現方式,業務連續性,計算業務場景以及使用與管理看不同:
GPU加速器呈現
常規GPU雲服務器實例是通過設備直通方式提供物理GPU加速器;

輕量級GPU雲服務器實例是通過GPU虛擬化方式提供虛擬GPU加速器;
業務連續性
常規GPU雲服務器僅支持作業離線遷移
輕量級GPU雲服務器支持作業在線遷移
計算業務場景
常規GPU雲服務器適用於重負載的GPU加速計算,例如:深度學習訓練與推理計算、HPC計算、重載圖形計算
輕量級GPU雲服務器適用於輕負載的GPU加速計算,例如:輕負載的深度學習推理計算、深度學習教學場景、雲遊戲與VR/AR場景
使用與管理
常規GPU雲服務器提供彈性計算服務實例、業務擴展以單顆物理GPU資源方式增加
輕量級GPU雲服務器依然提供彈性計算服務實例,但業務擴展以更小粒度GPU資源方式增加(例如:1/8或1/4顆Tesla P4的資源);

VGN5i有哪些技術亮點和技術領先性,解決哪些問題?

技術亮點:支持用戶在公共雲上創建更小顆粒的虛擬GPU的雲服務器實例。
技術領先性有三點:
任何一項領先的計算技術要將其移植到公共雲上輸出,還是要遵循可靠性、經濟性和易用性的技術要求。
首先是可靠性,公共雲服務器首先是公共服務,要給所有用戶提供“簡單可依賴”的基礎服務;雖然虛擬化GPU技術在私有部署條件下使用比較成熟,但是在公共雲上使用還是要面臨幾個可靠性的挑戰的:第一是數據安全性;第二是資源隔離;這兩個問題在私有部署條件下通常是沒有要求的,原因是私有部署都是給同一用戶部署使用,安全和資源爭搶問題都比較容易解決。但是,要在公共雲上使用,這些問題在公共雲上就必須解決。
其次是經濟性,用戶能選擇使用輕量級GPU雲服務器出發點是希望更加精細的使用GPU資源,本質是追求經濟性。虛擬化GPU技術在私有環境部署,因為需求確定,可以根據預想好的使用場景來配置虛擬化比例,但在公共雲場景就要解決既要滿足所有用戶的使用場景,又要保持調度系統的高效,不斷降低成本,追求經濟性。
最後是易用性,易用性表現在幾個方面,一個是管理接口和使用習慣與其他ECS實例保持一致,另一個是APP在GPU實例中的使用場景和方式與其他常規GPU實例保持一致。這樣用戶就沒有學習成本了。

技術分享圖片

輕量級GPU雲服務器如何使用?

GPU實例的用法與普通彈性計算實例一樣便捷,用戶可以使用Web控制臺或者OpenAPI方式配置和購買服務。用戶在使用過程中可以完全掌控該實例,該實例在阿裏雲計算環境中運行,還可以配合其他雲服務一起使用。當用戶業務遇到業務高峰時可以在數分鐘內擴展新的實例來適應業務增長。用戶在虛擬化GPU服務的使用全過程中均可以享受到在線服務咨詢和快速故障處理服務。

輕量級GPU雲服務器的實例有哪些?

目前開放售賣基於NVIDIA Tesla P4的VGN5i實例,該實例提供八分之一到一比一的虛擬GPU加速器;
後面會上線基於NVIDIA Tesla T4的VGN6i實例,該實例提供十六分之一到一比一的虛擬GPU加速器;

輕量級GPU雲服務器的適用場景有哪些?

輕量級GPU雲服務器可以根據業務需求配置創建貼合業務所需計算資源的GPU雲服務器實例,因此可以在每個輕量級GPU雲服務器實例上僅運行一個計算業務負載,在業務峰值來臨時,橫向擴展某一個計算業務負載即可。這樣的特性十分適合互聯網業務中AI計算的批量部署以及雲遊戲,AR/VR在雲端應用和深度學習的教學實驗場景。

VGN5i的用戶價值有哪些?

VGN5i的用戶價值包括:降低批量部署GPU實例的成本,可以輕松實現快速彈性伸縮以及提高運維效率。
降低批量部署成本
在諸多圖形計算和AI推理計算的場景中,用戶通常並不要求單GPU實例的計算性能十分強大,而是更加關註業務在批量部署中的成本。小粒度的虛擬化GPU實例則更加合適這些場景,很好的平衡用戶業務在批量部署中的成本需求。
實現快速彈性伸縮
擁有了小粒度的虛擬化GPU實例,用戶不必再為了匹配較強的物理GPU資源而將服務部署成為復雜的胖服務節點,而是可以基於容器方式將有GPU計算需求的服務都解耦部署在不同的虛擬化GPU實例節點上。這樣部署的瘦服務節點更加有利於快速彈性伸縮,在業務的任何時刻都可以應對自如,提高業務運維效率。
提高運維效率
使用小顆粒的虛擬化GPU實例進行瘦服務節點部署,使得服務環境配置和服務接口變得簡單,使用不同的鏡像即可部署大規模的AI應用而無需部署復雜的胖節點,提供運維效率,降低時間風險和成本。

直播觀看地址:https://yq.aliyun.com/live/938
查看產品VGN5i:https://www.aliyun.com/product/ecs/gpu
VGN5i·釋放GPU計算新動力:https://promotion.aliyun.com/ntms/act/vgpu.html
阿裏雲新品發布會頻道:https://promotion.aliyun.com/ntms/act/cloud/product.html
阿裏雲新品發布·周刊:https://yq.aliyun.com/publication/36

阿裏雲異構計算發布:輕量級GPU雲服務器實例VGN5i