對話Hillery Hunter：IBM通過有效地擴展訓練縮短了神經網絡的訓練時間">對話Hillery Hunter：IBM通過有效地擴展訓練縮短了神經網絡的訓練時間

2017年8月，IBM宣布其打破了圖片識別功能的訓練記錄。

IBM Research能夠將其ResNet-50神經網絡布局的訓練時間縮短到只有50分鐘。在另一個名為ResNet-101的網絡布局上，他們獲得了33.8％的準確率新記錄。他們利用256個GPU，在 ImageNet-22K數據集的750萬張圖片上訓練其神經網絡。相比之下，2017年6月，Facebook宣布能夠在一個小時內訓練他們的模型，但其使用了較小的數據集和較小的神經網絡。IBM將其成果作為一篇論文發表在arXiv上。

InfoQ聯系了IBM Research認知計算加速基礎架構主管Hillery Hunter，並提出了幾個問題。

InfoQ：您可以先說說你們試圖破解此記錄時遇到的問題嗎？你們的數據集有多大，其他人在使用同樣的數據集時通常會遇到什麽問題？

我們在ResNet-101訓練中使用了750萬張圖片，當處理這麽多數據時，計算花費的時間是一個重大挑戰。如果在單臺服務器上實施此訓練，需要大約16天才能完成。今天很少有領域能容忍這麽長的計算周轉時間。所以我們想解決這個時間尺度的問題，將這一大量數據集的訓練縮短到一天之內。

InfoQ： 256多個GPU之間的通信在此成果中起到了非常重要的作用。您能說說你們做了什麽以及它們如何幫助你們訓練網絡嗎？

我們開發了一個自定義的通信庫，可幫助系統中的所有學習單元（即GPU）以非常接近最優的速度和帶寬彼此進行通信。我們的庫可以融入到任何深度學習框架（如TensorFlow，Caffe等）中，而不是被硬編碼進深度學習軟件包。當各個學習單元可以快速相互通信時，你便可以更有效地將更多學習單元添加到系統中，並更快完成訓練。如果通信時間不夠快，你就會遇到擴展瓶頸，並且無法應用更多的服務器/ GPU來解決訓練的問題。

InfoQ：您提到了擴展效率。之前的記錄是89％，但你們卻達到了95％。擴展效率究竟是什麽，它與訓練時間有何關系？

擴展效率可以衡量多臺服務器共同有效地解決計算問題的能力。擴展效率越高，你就可以添加更多的服務器並加快解決問題的時間。95％的擴展效率意味著你不是只使用1臺服務器來解決問題，而是使用100臺服務器，所以它們解決問題的速度會快95倍。

InfoQ：在這種情況下，您使用256個GPU提供了95％的擴展效率。如果我使用10000 個GPU，那麽我的網絡是不是能夠加快9500倍的速度？換句話說：速度是線性擴展的嗎？限制因素有哪些？

我們相信我們新的通信庫與最優已經非常接近了，而且我們預計會繼續實現更高的GPU加速。現在，深度學習研究界正在努力解決一個被稱為“批量大小”的限制因素。這個因素目前會令10,000個GPU運行起來非常困難，但如果克服了這一問題，那麽擴展更多GPU將成為可能。

InfoQ：除了打破記錄之外，你們還將準確率從29.8％提高到33.8％。這純粹是因為更高的“訓練能力”，還是因為改變了網絡布局？

我們並未為這項工作設計新的神經網絡。我們使用了全同步訓練（得益於我們的低延遲通信庫），並且由於訓練時間上的優勢，我們對許多圖片進行了可行的訓練。

InfoQ：你們的模型是在哪個框架下開發的？

公告中描述了我們在Torch（ResNet-50）和Caffe（ResNet-101）上完成的工作。通過PowerAI技術預覽程序，IBM服務器團隊也將我們的分布式深度學習技術提供給了TensorFlow的用戶。

InfoQ：您能解釋一下PowerAI平臺是什麽以及它能為開發人員做些什麽嗎？

PowerAI是一套深度學習功能，包括框架（如Caffe、Tensorflow、Torch、Chainer等）、多服務器支持以及一些為受GPU加速的IBM服務器預編譯和預優化過的用戶工具。PowerAI可幫助用戶避免使用開源深度學習工具的麻煩、加快訓練時間並提升自定義數據集的深度學習性能。任何人都可以在自己的服務器上或在Nimbix雲端試用PowerAI功能。

InfoQ：你們有計劃提高訓練速度嗎？您認為計算時間和準確度方面的限制是什麽？

我們的分布式深度學習庫在擴展效率方面已經非常接近最優了，但總體而言，我們相信深度學習的訓練時間和準確性還能進一步提高。我們希望深度學習不只是停留在象牙塔中，而是要走出去。大型功能目前需要幾周到一個月的時間才能到達客戶手中，而客戶僅需要在幾分鐘或幾秒鐘內就可以看到業務成果。

Hillery Hunter簡介：

Hillery Hunter是IBM Tats Watson研究中心、加速認知基礎設施團隊的研究員和主管，該中心位於紐約Yorktown Heights。她對跨學科技術課題包括矽到系統架構、采用新解決方案解決傳統問題等較感興趣。其團隊致力於優化硬件協同、解決機器學習和深度學習等待時間的問題。其以前的工作主要在DRAM主存系統和嵌入式DRAM領域，其曾是IBM服務器和大型機DDR3的端對端存儲器電源主管，擁有豐富的相關開發經驗。2010年，她在工程前沿研討會上被美國國家工程院評為院士，她是美國獲得此殊榮的頂尖年輕工程師之一。Hillery博士擁有伊利諾伊大學厄巴納-尚佩恩分校的電氣工程博士學位，並且是IBM科技學院成員。2017年她被任命為IBM研究員。

查看英文原文： https://www.infoq.com/news/2017/09/ibm-scale-neural-Network-gpus

感謝羅遠航對本文的審校。

給InfoQ中文站投稿或者參與內容翻譯工作，請郵件至[email protected]。也歡迎大家通過新浪微博（@InfoQ，@丁曉昀），微信（微信號： InfoQChina ）關註我們。

Tags: 訓練神經網絡數據你們學習我們

文章來源：

對話Hillery Hunter：IBM通過有效地擴展訓練縮短了神經網絡的訓練時間">對話Hillery Hunter：IBM通過有效地擴展訓練縮短了神經網絡的訓練時間

相關文章