對話Hillery Hunter:IBM通過有效地擴展訓練縮短了神經網絡的訓練時間">對話Hillery Hunter:IBM通過有效地擴展訓練縮短了神經網絡的訓練時間

分類:IT技術 時間:2017-09-30

2017年8月,IBM宣布其 打破了圖 片 識別功能的訓練記錄 。

IBM Research能夠將其ResNet-50神經網絡布局的訓練時間縮短到只有50分鐘。在另一個名為ResNet-101的網絡布局上,他們獲得了33.8%的準確率新記錄。他們利用256個GPU,在 ImageNet-22K數據集的750萬張圖 片 上 訓練其神經網絡。相比之下,2017年6月,Facebook宣布 能夠在一個小時內訓練他們的模型 ,但其使用了較小的數據集和較小的神經網絡。IBM將其成果 作為一篇論文發表在arXiv上 。

InfoQ聯系了IBM Research認知計算加速基礎架構主管Hillery Hunter,並提出了幾個問題。

InfoQ:您可以先說說你們試圖破解此記錄時遇到的問題嗎? 你們的數據集有多大,其他人在使用同樣的數據集時通常會遇到什麽問題?

我們在ResNet-101訓練中使用了750萬張圖片,當處理這麽多數據時,計算花費的時間是一個重大挑戰。如果在單臺服務器上實施此訓練,需要大約16天才能完成。今天很少有領域能容忍這麽長的計算周轉時間。所以我們想解決這個時間尺度的問題,將這一大量數據集的訓練縮短到一天之內。

InfoQ: 256多個GPU之間的通信在此成果中起到了非常重要的作用。您能說說你們做了什麽以及它們如何幫助你們訓練網絡嗎?

我們開發了一個自定義的通信庫,可幫助系統中的所有學習單元(即GPU)以非常接近最優的速度和帶寬彼此進行通信。我們的庫可以融入到任何深度學習框架(如TensorFlow,Caffe等)中,而不是被硬編碼進深度學習軟件包。當各個學習單元可以快速相互通信時,你便可以更有效地將更多學習單元添加到系統中,並更快完成訓練。如果通信時間不夠快,你就會遇到擴展瓶頸,並且無法應用更多的服務器/ GPU來解決訓練的問題。

InfoQ:您提到了擴展效率。之前的記錄是89%,但你們卻達到了95%。擴展效率究竟是什麽,它與訓練時間有何關系?

擴展效率可以衡量多臺服務器共同有效地解決計算問題的能力。擴展效率越高,你就可以添加更多的服務器並加快解決問題的時間。95%的擴展效率意味著你不是只使用1臺服務器來解決問題,而是使用100臺服務器,所以它們解決問題的速度會快95倍。

InfoQ:在這種情況下,您使用256個GPU提供了95%的擴展效率。如果我使用10000 個GPU,那麽我的網絡是不是能夠加快9500倍的速度? 換句話說:速度是線性擴展的嗎?限制因素有哪些?

我們相信我們新的通信庫與最優已經非常接近了,而且我們預計會繼續實現更高的GPU加速。現在,深度學習研究界正在努力解決一個被稱為“批量大小”的限制因素。這個因素目前會令10,000個GPU運行起來非常困難,但如果克服了這一問題,那麽擴展更多GPU將成為可能。

InfoQ:除了打破記錄之外,你們還將準確率從29.8%提高到33.8%。這純粹是因為更高的“訓練能力”,還是因為改變了網絡布局?

我們並未為這項工作設計新的神經網絡。我們使用了全同步訓練(得益於我們的低延遲通信庫),並且由於訓練時間上的優勢,我們對許多圖片進行了可行的訓練。

InfoQ:你們的模型是在哪個框架下開發的?

公告中描述了我們在Torch(ResNet-50)和Caffe(ResNet-101)上完成的工作。通過PowerAI技術預覽程序,IBM服務器團隊也將我們的分布式深度學習技術提供給了TensorFlow的用戶。

InfoQ:您能解釋一下PowerAI平臺是什麽以及它能為開發人員做些什麽嗎?

PowerAI是一套深度學習功能,包括框架(如Caffe、Tensorflow、Torch、Chainer等)、多服務器支持以及一些為受GPU加速的IBM服務器預編譯和預優化過的用戶工具。PowerAI可幫助用戶避免使用開源深度學習工具的麻煩、加快訓練時間並提升自定義數據集的深度學習性能。任何人都可以在自己的服務器上或在Nimbix雲端試用PowerAI功能。

InfoQ:你們有計劃提高訓練速度嗎? 您認為計算時間和準確度方面的限制是什麽?

我們的分布式深度學習庫在擴展效率方面已經非常接近最優了,但總體而言,我們相信深度學習的訓練時間和準確性還能進一步提高。我們希望深度學習不只是停留在象牙塔中,而是要走出去。大型功能目前需要幾周到一個月的時間才能到達客戶手中,而客戶僅需要在幾分鐘或幾秒鐘內就可以看到業務成果。

Hillery Hunter簡介:

Hillery Hunter是IBM Tats Watson研究中心、加速認知基礎設施團隊的研究員和主管,該中心位於紐約Yorktown Heights。她對跨學科技術課題包括矽到系統架構、采用新解決方案解決傳統問題等較感興趣。其團隊致力於優化硬件協同、解決機器學習和深度學習等待時間的問題。其以前的工作主要在DRAM主存系統和嵌入式DRAM領域,其曾是IBM服務器和大型機DDR3的端對端存儲器電源主管,擁有豐富的相關開發經驗。2010年,她在工程前沿研討會上被美國國家工程院評為院士,她是美國獲得此殊榮的頂尖年輕工程師之一。Hillery博士擁有伊利諾伊大學厄巴納-尚佩恩分校的電氣工程博士學位,並且是IBM科技學院成員。2017年她被任命為IBM研究員。

查看英文原文: https://www.infoq.com/news/2017/09/ibm-scale-neural-Network-gpus

感謝羅遠航對本文的審校。

給InfoQ中文站投稿或者參與內容翻譯工作,請郵件至[email protected]。也歡迎大家通過新浪微博(@InfoQ,@丁曉昀),微信(微信號: InfoQChina )關註我們。


Tags: 訓練 神經網絡 數據 你們 學習 我們

文章來源:


ads
ads

相關文章
ads

相關文章

ad