1. 程式人生 > >阿裏雲E-HPC賦能制造業仿真雲彈性

阿裏雲E-HPC賦能制造業仿真雲彈性

集群

摘要: 從公測開始說起 去年9月份E-HPC開始公測,某仿真客戶便開始申請使用彈性高性能服務。該客戶因為業務關系已開始或多或少使用雲計算產品,另一方面傳統制造業發展問題也促使客戶想嘗試做出一些改變。 經過同客戶的初步交流,客戶的主要痛點集中在以下方面:客戶從事仿真行業,通過服務傳統的制造業獲得營收,因此客戶的客戶集中在汽車,航天,船舶等。

從公測開始說起

去年9月份E-HPC開始公測,某仿真客戶便開始申請使用彈性高性能服務。該客戶因為業務關系已開始或多或少使用雲計算產品,另一方面傳統制造業發展問題也促使客戶想嘗試做出一些改變。

經過同客戶的初步交流,客戶的主要痛點集中在以下方面:客戶從事仿真行業,通過服務傳統的制造業獲得營收,因此客戶的客戶集中在汽車,航天,船舶等。一方面該仿真企業的客戶在不同階段對算力的需求也不盡相同,有時也突然遇到比較大的仿真需求的客戶,自己機房的小規模的機器經常滿足不了生產需要,總的來說一年四季客戶對計算力的需求總是會有各種各樣的波動。

技術分享圖片

最開始的彈性

E-HPC剛上線時為在雲上資源所建立的集群提供了計算機群擴容和縮容的功能,這意味者在雲上New出來的計算節點一方面要能部署同其他計算節點一樣高性能軟件棧,另外一方面要求節點要有同一套POSIX賬號體系,以便集群作業調度器能夠將用戶提交的作業調度到該節點上運行。客戶剛開始便很快完成了基於ECS的集群創建,剛開始運行需要幾十個計算核心的算例,通過E-HPC的擴容完成計算機群節點的增加,同時可以馬上在該集群運行更多核心的結構和流體求解器計算作業。

能自動伸縮的彈性

客戶為制造企業提供仿真服務,有些算例客戶在運行前可以預估大概需要多少計算核心計算多少時間,但有些復雜算例,客戶也無法確定資源需求量。客戶希望E-HPC產品提供的計算機群能夠貼著客戶從仿真系統提交的作業數量和實際的真正運行作業的計算核心數走,即客戶想盡可能用好每一個CPU周期,因此希望E-HPC能幫助客戶自動完成自動增加計算節點和自動減少集群的計算節點。所以,AutoScale功能便上線了。AutoScale可以根據整個高性能集群的負載和策略動態調整計算機群擴容和縮容。技術分享圖片

同雲桌面/GPU服務器的結合

一般在仿真工作流裏面,完成大量的仿真計算後會進入到渲染階段,所以一般會經過GPU服務器集群的Pipeline,最後通過雲桌面展示給客戶的客戶。於是E-HPC開始支持自定義鏡像,方便客戶從帶有特點渲染軟件的鏡像啟動GPU實例完成仿真後處理工作,並且E-HPC開始推出支持競價實例的擴容方式以便客戶能夠使用較低的成本完成一些無狀態的訓練任務。技術分享圖片

超級計算集群

傳統的高能計算,為了計算的極致,從每年的Top500來看,在計算存儲網絡方面都有很明顯的特點。首先,在計算方面高能計算的集群的計算節點傾向於選擇高主頻類型的處理器,頻率基本都在3GHz~4GH;其次在存儲方面 基本是基於傳統企業級盤陣,存儲系統的可靠性放在盤陣自身的容錯能力上,很少使用多副本的方案;在網絡方面,傳統應用多使用基於同步通信的並行算法,因此為了能達到較大的加速比一般使用低延遲的RDMA網絡甚至是專門定制的通信網絡。

年初雲上超級計算集群(SCC)開始公測,提供能運行超算應用的計算存儲和網絡基礎設施,SCC能夠給流體仿真之類的有限元分析軟件提供近乎線性的加速比。結合E-HPC提供的彈性,客戶很快便完成了POC測試。

技術分享圖片

我們可以看到對於同樣幾億單元的有限元分析,使用SCC無論是單節點的計算能力還是多節點加速比都有顯著提升,因此客戶給反饋了如下的測試感受:

“1.計算性能強勁:無論是單節點的計算能力,還是多節點分布式計算能力都有顯著提升,在測試項目計算規模之內,都可以獲得非常不錯的加速效率”

“2.集群互聯IO性能:RDMA高速互聯可以滿足一定範圍內的大規模的機械,流體等仿真應用計算要求,效果顯著” ,要性能有性能,要彈性有彈性之後,客戶便更有信心將仿真生產系統往雲上遷移。

仿真應用遷雲

該仿真客戶經過多年的仿真服務實踐,開發了一款仿真系統,該系統集成了制造仿真行業常用的商業軟件,基本覆蓋碰撞仿真,流體動力學,機械結構,電磁模擬等。

該仿真系統提供了統一的Portal給不同的制造企業以一致的體驗完成仿真工作流,早期的系統結構基本如下圖所示:從中我們可以看出早期的結構基本立足於傳統超算,融合了CAE並行計算、計算資源調度、軟硬件資源管理、遠程圖形桌面以及CAE專業應用等技術,由此面向仿真用戶提供仿真計算服務。客戶需要很重的成本來擁有這些基礎設置作為生產資料來服務客戶的客戶。然而,經過交流,客戶的心聲是做仿真他們是專業的,但是經營IT基礎設施只是為了維持他們的仿真生產系統而進行的活動;他們想專註於仿真服務,而將IT基礎設施遷往雲上,於是客戶便有了仿真系統遷雲的想法。技術分享圖片

客戶想通過將仿真系統遷雲,達到以下效果:

1.用戶不需要購買任何物理IT硬件資源,通過Web即可開展仿真分析工作。

2.統一管理和調配專業軟件軟件管理,充分利用昂貴的CAE軟件資源。

3.通過雲計算彈性充分利用雲上資源進行仿真。

經過逐漸的驗證,客戶在阿裏雲上完成了將仿真流程收斂到下面的結構:技術分享圖片

從上面的分析,我們可以發現客戶能夠更加專註於仿真工作流本身,而將對IT基礎設施的使用變成了阿裏雲上一條一條的OpenAPI;需要集群時通過一條OpenAPI New出一個超算集群,算力不夠時通過一條Open API New出新的計算機群,作業空閑時通過一條Open API釋放計算機群,不想手動操作時通過一條Open API 自動伸縮集群。客戶不用再考慮自建機房,備貨,擴建,設備運維...... 。

總結

隨著工業仿真技術的不斷發展和成熟以及工業產品的自身的復雜程度越來越高,目前現在多數工業仿真對象都是在各種復雜物理環境條件情況下進行的,這種情況決定了完成工業級的仿真工作需要大量的計算和高性能的存儲資源,以及配套的可以執行快創建和訪問仿真模型和數據,並能夠實現較高程度的自動化仿真流程。工業上的仿真技術在產品研發中所扮演的角色在流程上越來越靠前,不再是產品設計完成後的後端驗證。與此同時,工業仿真技術在產品生命周期的下遊也發揮著越來越重要的作用,比如分析來自工業物聯網中機器的實時操作數據。因此,工業仿真所需計算資源、人才培養、環境建設的難度都在增加。但對於企業來講,搭建一個環境並培養專職的仿真工程師並不容易,僅僅是購買軟硬件的需求調研就可能花費數月時間,之後還得投入大量的時間和精力進行專業領域仿真培訓和應用部署。

同其他的企業級IT應用一樣,雲計算技術正在給仿真應用帶來巨大的改變。通過仿真雲平臺能夠對產品進行設計、改進、創新進行模型的快速驗證和方案的對比。對於傳統制造企業來說,使用雲計算技術的價值歸根結底是不用購買和管理物理計算集群,從而可以改變傳統的仿真應用流程,更加專註於仿真應用本身。基於雲計算技術,企業將可以用到更加靈活的軟件使用價格,並可以隨時隨地進行建模解決復雜的仿真應用問題。借助同時模擬多個不同設計方案的能力,基於雲計算技術的仿真可以支持傳統制造業更輕松地進行產品設計和工程仿真。通過在阿裏雲上仿真,可以很快獲取彈性資源,能夠在很短的時間就可以進行完整的仿真生產流程。不管是加快產品創新,還是滿足制造業不斷增長的仿真需求或是,加強全球合作提高IT投資回報率,都會收到立竿見影的效果。

原文鏈接


阿裏雲E-HPC賦能制造業仿真雲彈性