超級AI計算平臺X-MAN 3.0來襲 英業達伺服器助力百度全面落地AI戰略

日前,在加拿大舉辦的第32屆NeurIPS神經資訊處理系統大會上,百度正式釋出自主研發的超級AI計算平臺X-MAN 3.0。該平臺專為AI深度學習場景設計,得益於2000萬億次深度神經網路計算能力,X-MAN3.0可提高AI深度學習模型的訓練速度。此次百度X-MAN 3.0的快速落地,得到了英業達(Inventec)等伺服器系統廠商的積極參與。
AI訓練需部署更強大的GPU計算平臺
當前,AI訓練對計算平臺提出了極大挑戰,為了提高AI模型的精準度,訓練資料集規模平均增長了300倍以上。資料顯示,Google Open Image在2017年末就已經達到了900萬標記圖片,模型規模高速膨脹,一些網際網路公司的AI模型已經達到千億引數的規模。
這要求使用者不僅需要部署更大規模的GPU計算平臺,同時該GPU計算平臺應具備更大的縱向擴充套件能力,以解決日益嚴峻的GPU之間的通訊瓶頸。以AI模型常用的三維快速傅立葉變換演算法為例,這種演算法在GPU並行環境,每三次運算就需要一次全域性性通訊,對於GPU間的互動頻寬高度依賴。
專為深度神經網路優化的百度X-MAN 3.0
而百度X-MAN 3.0便是目前擴充套件GPU數量最多的計算平臺之一。藉助NVSwitch技術,X-MAN 3.0可以很好地緩解通訊瓶頸問題,為網際網路公司的超大規模AI訓練帶來超出預期的應用價值。
百度X-MAN產品首次釋出於2016年,此後每年更新一代。自第一款釋出以來,X-MAN三代產品各自都有著鮮明的設計理念:超高計算密度、高效散熱能力、相容多元化AI加速晶片,正是通過3次架構升級,X-MAN有效攻克了3大技術挑戰。
第三代X-MAN產品X-MAN3.0高度為8U,由兩個高度分別為4U的獨立AI模組組成,每個模組可支援8顆最新的NVDIA V100,兩個AI模組間通過高速互聯背板連線。GPU間通過NV Switch實現點對點通訊,全域性單向通訊總頻寬為2400GB/秒。
此外,X-MAN 3.0特地設計了兩級AI加速晶片互聯交換體系,CPU與GPU間的邏輯關係可通過軟體定義方式任意指定,更靈活的支援不同負載的AI應用,避免了系統瓶頸,此乃X-MAN3.0與其他產品的顯著區別處。
當前AI訓練晶片領域競爭激烈,眾多方案將在2019年相繼落地應用。X-MAN 3.0整體採用模組化設計,能夠快速、高效的支援各種AI訓練晶片,這為百度快速引入更有競爭力的AI訓練晶片方案奠定了關鍵技術基礎。
英業達伺服器助力百度AI戰略全面落地
超級AI計算平臺X-MAN 3.0的快速落地,自然少不了伺服器系統廠商的積極支援,作為百度在資料中心領域重要的戰略伙伴,不僅是X-MAN 3.0,英業達從第二代X-MAN產品開始便積極與百度聯合研發包括X-MAN在類的多種AI專用計算平臺。
如在 X-MAN2.0上,得益於英業達的技術研發及製造能力,X-MAN2.0實現了2大差異化技術特徵:液冷散熱和靈活的IO支援。一方面,AI加速卡的應用使得伺服器功耗增長,散熱問題成為制約計算力提升的瓶頸,X-MAN2.0通過冷板式液冷散熱技術解決散熱難題,同時又避免了浸沒式液冷技術帶來的運維、部署、成本等問題。
另一方面,AI加速卡的應用,進一步暴露通訊瓶頸,X-MAN2.0通過採用靈活的IO介面,可依據業務場景需要適配不同數量的100G RDMA網絡卡,既解決多機加速的可擴充套件性技術挑戰,同時有效降低網路系統設計的複雜度和成本。
除AI專用計算平臺外,英業達已與百度進行長達8年ODM定製化伺服器合作,是百度"All in AI"戰略的重要伺服器硬體夥伴。未來,雙方會繼續深化合作,英業達伺服器將進一步幫助百度AI戰略全面落地。
英業達臺灣桃園公司
英業達上海浦東公司
欲瞭解更多英業達伺服器資訊,請關注下方二維碼:
圖片說明