1. 程式人生 > >OpenPAI:大規模人工智能集群管理平臺介紹及任務提交指南

OpenPAI:大規模人工智能集群管理平臺介紹及任務提交指南

運行 server 工程 各類 利用 圖片 .com 開發者 dev

產品淵源

隨著人工智能技術的快速發展,各種深度學習框架層出不窮,為了提高效率,更好地讓人工智能快速落地,很多企業都很關註深度學習訓練的平臺化問題。例如,如何提升GPU等硬件資源的利用率?如何節省硬件投入成本?如何支持算法工程師更方便的應用各類深度學習技術,從繁雜的環境運維等工作中解脫出來?等等。

產品定位:

為深度學習提供一個深度定制和優化的人工智能集群管理平臺,讓人工智能堆棧變得簡單、快速、可擴展。

產品優勢:

● 為深度學習量身定做,可擴展支撐更多AI和大數據框架

通過創新的PAI運行環境支持,幾乎所有深度學習框架如CNTK、TensorFlow、PyTorch等無需修改即可運行;其基於Docker的架構則讓用戶可以方便地擴展更多AI與大數據框架。

● 容器與微服務化,讓AI流水線實現DevOps

OpenPAI 100%基於微服務架構,讓AI平臺以及開發便於實現DevOps的開發運維模式。

● 支持GPU多租,可統籌集群資源調度與服務管理能力

在深度學習負載下,GPU逐漸成為資源調度的一等公民,OpenPAI提供了針對GPU優化的調度算法,豐富的端口管理,支持Virtual Cluster多租機制,可通過Launcher Server為服務作業的運行保駕護航。

● 提供豐富的運營、監控、調試功能,降低運維復雜度

PAI為運營人員提供了硬件、服務、作業的多級監控,同時開發者還可以通過日誌、SSH等方便調試作業。

OpenPAI的架構如下圖所示,用戶通過Web Portal調用REST Server的API提交作業(Job)和監控集群,其它第三方工具也可通過該API進行任務管理。隨後Web Portal與Launcher交互,以執行各種作業,再由Launcher Server處理作業請求並將其提交至Hadoop YARN進行資源分配與調度。可以看到,OpenPAI給YARN添加了GPU支持,使其能將GPU作為可計算資源調度,助力深度學習。其中,YARN負責作業的管理,其它靜態資源(下圖藍色方框所示)則由Kubernetes進行管理。

技術分享圖片

提交作業:Web Portal

交互中間件:Launcher

作業、資源管理:Hadoop YARN

靜態資源管理:Kubernetes

任務提交指南

提交任務的方式主要有三種,但對於centos系統只有web端的提交形式

技術分享圖片

在web端通過json配置文件的形式進行job提交

技術分享圖片

配置文件編輯完成後,進行配置文件上傳

技術分享圖片

配置文件上傳後,相關配置在web端顯示

技術分享圖片

任務提交

技術分享圖片

確認信息無誤後,點擊Submit,完成任務提交

技術分享圖片

Hadoop yarn進行任務調度

技術分享圖片

集群現狀

技術分享圖片

OpenPAI:大規模人工智能集群管理平臺介紹及任務提交指南