OpenPAI：大規模人工智能集群管理平臺介紹及任務提交指南

阿新 • • 發佈：2018-11-09

運行 server 工程各類利用圖片 .com 開發者 dev

產品淵源：

隨著人工智能技術的快速發展，各種深度學習框架層出不窮，為了提高效率，更好地讓人工智能快速落地，很多企業都很關註深度學習訓練的平臺化問題。例如，如何提升GPU等硬件資源的利用率？如何節省硬件投入成本？如何支持算法工程師更方便的應用各類深度學習技術，從繁雜的環境運維等工作中解脫出來？等等。

產品定位：

為深度學習提供一個深度定制和優化的人工智能集群管理平臺，讓人工智能堆棧變得簡單、快速、可擴展。

產品優勢：

● 為深度學習量身定做，可擴展支撐更多AI和大數據框架

通過創新的PAI運行環境支持，幾乎所有深度學習框架如CNTK、TensorFlow、PyTorch等無需修改即可運行；其基於Docker的架構則讓用戶可以方便地擴展更多AI與大數據框架。

● 容器與微服務化，讓AI流水線實現DevOps

OpenPAI 100%基於微服務架構，讓AI平臺以及開發便於實現DevOps的開發運維模式。

● 支持GPU多租，可統籌集群資源調度與服務管理能力

在深度學習負載下，GPU逐漸成為資源調度的一等公民，OpenPAI提供了針對GPU優化的調度算法，豐富的端口管理，支持Virtual Cluster多租機制，可通過Launcher Server為服務作業的運行保駕護航。

● 提供豐富的運營、監控、調試功能，降低運維復雜度

PAI為運營人員提供了硬件、服務、作業的多級監控，同時開發者還可以通過日誌、SSH等方便調試作業。

OpenPAI的架構如下圖所示，用戶通過Web Portal調用REST Server的API提交作業（Job）和監控集群，其它第三方工具也可通過該API進行任務管理。隨後Web Portal與Launcher交互，以執行各種作業，再由Launcher Server處理作業請求並將其提交至Hadoop YARN進行資源分配與調度。可以看到，OpenPAI給YARN添加了GPU支持，使其能將GPU作為可計算資源調度，助力深度學習。其中，YARN負責作業的管理，其它靜態資源（下圖藍色方框所示）則由Kubernetes進行管理。

技術分享圖片

提交作業：Web Portal

交互中間件：Launcher

作業、資源管理：Hadoop YARN

靜態資源管理：Kubernetes

任務提交指南

提交任務的方式主要有三種，但對於centos系統只有web端的提交形式

技術分享圖片

在web端通過json配置文件的形式進行job提交

技術分享圖片

配置文件編輯完成後，進行配置文件上傳

技術分享圖片

配置文件上傳後，相關配置在web端顯示

技術分享圖片

任務提交

技術分享圖片

確認信息無誤後，點擊Submit，完成任務提交

技術分享圖片

Hadoop yarn進行任務調度

技術分享圖片

集群現狀：

技術分享圖片

OpenPAI：大規模人工智能集群管理平臺介紹及任務提交指南

運行 server 工程各類利用圖片 .com 開發者 dev 產品淵源：隨著人工智能技術的快速發展，各種深度學習框架層出不窮，為了提高效率，更好地讓人工智能快速落地，很多企業都很關註深度學習訓練的平臺化問題。例如，如何提升GPU等硬件資源的利用率？如何節省硬件投

OpenPAI：大規模人工智能集群管理平臺介紹及任務提交指南

OpenPAI：大規模人工智能集群管理平臺介紹及任務提交指南

OpenPAI：大規模人工智慧叢集管理平臺介紹及任務提交指南

中國夢·申城美 | 小i機器人創始人：讓人工智能成為隱形大腦

526份行業報告+白皮書：AI人工智能、機器人、智能出行、智能家居、物聯網、VR/AR、區塊鏈等（附下載）

曲子龍：搞人工智能不如養一條好狗！

課工場創始人肖睿：我國人工智能發展需要大量基礎層人才

2019年機器學習：追蹤人工智能發展之路

分享《人工智能：國家人工智能戰略行動抓手》+PDF+騰訊研究院

華為雲普惠AI：把人工智能變成“水電煤氣”

2019 SAIL啟航：“世界人工智能創新大賽（AIWIN）”今在滬啟動

嵌入式QT精品視頻教程：開發RFID智能倉儲指紋管理系統

人工智能名片技術開發功能介紹

飲冰三年-人工智能-linux-06 系統啟動流程及安全

負載均衡集群、LVS介紹及調度算法、LVS NAT模式搭建

Spark集群管理器介紹

人工智能VS投資者：股票市場上誰的勝算更高？

人工智能在未來：人工智能將會怎樣影響我們的生活？

《第四次革命》：3星。關於人工智能的有趣事實與暢想。

機器學習大神 Michael Jordan：人工智能還只是一個雛形

微軟放大招：要用人工智能抗擊黑客

OpenPAI：大規模人工智能集群管理平臺介紹及任務提交指南

相關推薦