自動生成高效DNN,適用於邊緣裝置的生成合成工具FermiNets

ofollow,noindex" target="_blank">機器之心 翻譯
參與 李詩萌 路雪
自動生成高效DNN,適用於邊緣裝置的生成合成工具FermiNets
來自滑鐵盧大學滑鐵盧 AI 研究所和 DarwinAI 公司的研究者提出一種新思路:生成合成(generative synthesis),利用生成機器來自動生成具備高效網路架構的深度神經網路。
深度學習[12] 因在影象分類 [11] 和語音識別[5] 等廣泛領域取得的巨大突破而受到大量關注。儘管已經取得了很多成果,但深度神經網路的複雜度限制了它們在邊緣場景中的使用,這些場景包括計算能力、記憶體、頻寬、能源有限的移動端和其它消費類裝置。近年來對於提升深度神經網路效率方面的探索顯著增加,這些研究尤其偏向邊緣裝置和移動裝置。研究中的一種常見方法是精度降低 [10,14,3],在這種方法中網路的資料表徵從常用的 32 位浮點精度降到不動點精度或整數精度 [10]、2 位元精度 [14] 甚至 1 位元精度 [3]。另一種方法是模型壓縮 [4,7,15],這種方法涉及到一些傳統的資料壓縮方法,比如權重閾值法、雜湊以及霍夫曼編碼等,還涉及師生策略,這種策略讓較大的教師網路訓練較小的學生網路。最後還有一種方法,這種方法的重點在於深度神經網路的基本設計,它還利用架構設計原理實現了更高效的深度神經網路的巨集架構 [8,9,17,21]。
本論文探討了一種非常不同的想法:我們可以學得一個生成機器來自動生成具備高效網路架構的深度神經網路嗎?作者引入了生成合成(generative synthesis)的思想,這種思想以串聯起來的生成器-判別器對(generator-inquisitor pair)之間錯綜複雜的互動為前提,獲得觀點並學習生成高效的深度神經網路,這種深度神經網路能在最大程度上滿足裝置端這類邊緣場景的操作要求。
實驗結果與討論
為了評估生成合成(下文都用 GenSynth 代替)產生自動生成高效深度神經網路的生成器的效果(由於這些網路比較小所以我們將它們稱為 FermiNets),我們進行了三項實驗:
-
影象分類。ϕ:ResNet [6],1_r(·):在 CIFAR-10 上的準確率≥ 89%。
-
語義分割。ϕ:RefineNet [13],1_r(·):在 CamVid [1] 上的準確率≥ 89%。
-
目標檢測。ϕ:DetectNet [19],1_r(·):在 Paese27K [18] 上的 mAP ≥ 61%。
我們用以下指標評估了 FermiNets 的效能:i)用資訊密度 [2] 來評估模型效率,ii)用乘積累加運算(MAC)來評估計算成本,iii)用 NetScore [20] 來評估整體模型效能(準確率、架構複雜度以及計算複雜度之間的平衡)。
圖 1:影象分類:(左上)在 CIFAR-10 上的 Top-1準確率,(右上)資訊密度 [2],(左下)MAC 運算,(右下)NetScore [20]。
圖 2:語義分割:(a)資訊密度;(b)MAC 運算;(c)NetScore。
圖 3:目標檢測:(a)資訊密度;(b)MAC 運算;(c)NetScore;(d)在 Nvidia Tegra X2 移動處理器上的能效。
論文:FermiNets: Learning generative machines to generate efficient neural networks via generative synthesis
論文連結:https://arxiv.org/abs/1809.05989
摘要:深度學習所展示出的巨大潛力往往會被架構複雜度以及計算複雜度抵消,這使它很難廣泛地部署在邊緣長江,如移動裝置和其它消費類裝置。為了解決這一困難,我們研究了一種新想法:我們可以學得生成機器來自動地生成具備高效網路架構的深度神經網路嗎?我們在本研究中引入了生成合成的思想,這種思想以串聯起來的生成器-判別器對之間錯綜複雜的互動為前提,獲得觀點並學習生成高效的深度神經網路,這種深度神經網路能在最大程度上滿足裝置端這類邊緣場景的操作要求。最有趣的地方在於,一旦通過生成合成學得生成器,它能夠用於生成滿足操作要求的大量不同的高效深度神經網路。影象分類、語義分割和目標檢測任務的實驗結果說明生成合成在產生可自動生成高效深度神經網路的生成器中的效用(我們將這些網路稱為 FermiNets),生成合成使模型的效率更高、計算成本更低、能效也更高。因此,生成合成是一種強大、通用的方法,可用於加速和改進裝置端邊緣場景中深度神經網路的構建。
理論 論文 DNN
相關資料
Deep neural network
深度神經網路(DNN)是深度學習的一種框架,它是一種具備至少一個隱層的神經網路。與淺層神經網路類似,深度神經網路也能夠為複雜非線性系統提供建模,但多出的層次為模型提供了更高的抽象層次,因而提高了模型的能力。
來源:機器之心 Techopedia
Speech Recognition
自動語音識別是一種將口頭語音轉換為實時可讀文字的技術。自動語音識別也稱為語音識別(Speech Recognition)或計算機語音識別(Computer Speech Recognition)。自動語音識別是一個多學科交叉的領域,它與聲學、語音學、語言學、數字訊號處理理論、資訊理論、電腦科學等眾多學科緊密相連。由於語音訊號的多樣性和複雜性,目前的語音識別系統只能在一定的限制條件下獲得滿意的效能,或者說只能應用於某些特定的場合。自動語音識別在人工智慧領域佔據著極其重要的位置。
Deep learning
深度學習(deep learning)是機器學習的分支,是一種試圖使用包含複雜結構或由多重非線性變換構成的多個處理層對資料進行高層抽象的演算法。 深度學習是機器學習中一種基於對資料進行表徵學習的演算法,至今已有數種深度學習框架,如卷積神經網路和深度置信網路和遞迴神經網路等已被應用在計算機視覺、語音識別、自然語言處理、音訊識別與生物資訊學等領域並獲取了極好的效果。
來源: LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.
Accuracy
分類模型的正確預測所佔的比例。在多類別分類中,準確率的定義為:正確的預測數/樣本總數。 在二元分類中,準確率的定義為:(真正例數+真負例數)/樣本總數

機器之心編輯
推薦文章