基於全域性誤差重構的深度卷積神經網路壓縮方法

阿新 • • 發佈：2019-01-21

最近在看這篇文章，翻譯出來略作整理，本人能力有限，翻譯不足之處還請諒解

摘要

近年來，在影象分類、目標檢測、目標分析和人臉校正等諸多領域，卷積神經網路（CNNs）都取得了巨大的成功。通過百萬級甚至十億級的引數，CNN模型在處理數量巨大的訓練資料時顯示出強大的能力。然而，由於模型儲存方面的巨大代價，這些模型嚴重不足，這也限制了此類模型在一些記憶體有限的平臺上的應用，如手機、嵌入式裝置等。在本文中，我們的目標是在不損失解析度的前提下儘可能地壓縮CNN模型。主要想法是對輸出重構誤差進行明確地建模，然後最小化誤差找到一個令人滿意的率失真，該誤差是原始資料與壓縮的CNN之間的誤差。於是，我們提出了全域性重構誤差演算法（簡稱GER），首次以分層的方式改進了基於奇異值分解的低秩逼近演算法，此演算法對全連線層進行了粗糙的壓縮。接下來，這種分層初始化的壓縮值通過後向傳播的方法從全域性的角度進行優化。本文提出的GER演算法針對兩個廣泛採用的卷積神經網路AlexNet和VGGNet-19，在ILSVRC2012影象分類資料集上進行了評估。與目前效果最好的其他幾個CNN壓縮演算法相比，本文提出的演算法在以上兩個網路上均取得了最好的率失真。
1.引言
近年來，卷積神經網路在計算機視覺領域已經展現了引人注目的成績。例如，影象分類[A. Krizhevsky and Hinton, 2012; Y. Lecun and Haffner, 1998; Simonyan and Zisserman, 2014; C. Szegedy and Rabinovich, 2015; Zeiler and Fergus, 2014; Y. Jia and Darrell, 2014; K. He and Sun, 2015]，目標檢測[R. Girshick and Malik, 2014; K. He and Sun, 2014]，以及影象重建[Y. Gong and Lazebnik, 2014]. 雖然神經網路的研究在學術界已經有著很長一段歷史[Fukushima,1980]，CNNs的巨大成功還是主要取決於當下先進的計算資源。例如，訓練一個像AlexNet[A. Krizhevsky and Hinton, 2012]或VGGNet[Simonyan and Zisserman, 2014] 一樣的判別式CNN模型，一般都需要上億個引數，然後通過大量的帶標籤或者沒有標籤的資料利用近似優化演算法（如隨機梯度下降演算法）進行微調，這主要是在GPU或分散式環境[J. Deng and Li, 2009]下進行的。類似的，CNNs的多種營養杯引入到學術界，像AlexNet [A. Krizhevsky and Hinton, 2012], VGGNet[Simonyan and Zisserman, 2014], GoogleNet [C. Szegedy and Rabinovich, 2015]等。即使是在像ImageNet ILSVRC[J. Deng and Li, 2009]類似的挑戰任務中，所提交的效能最好的結果，其CNNs的儲存代價也是很大的，也是要求很大數量的引數（大約10^8），[A. Krizhevsky and Hinton, 2012;Zeiler and Fergus, 2014; P. Sermanet and LeCun, 2013]。舉個例子，一個8層的AlexNet網路包含600,000個節點，需要240MB的儲存空間，然而一個19層的VGGNet則包含1.5M個節點，需要548MB的記憶體。在這種環境下，現存在CNNs不能直接應用在要求緊湊記憶體的手機或嵌入式裝置上。與此相反的，有研究表示擁有百萬級別引數的CNNs易於出現嚴重的過引數化[M. Denil and Freitas, 2013]。因此，在訓練一個判別式CNN時並不是所有的引數和結構都是必須的，另一方面，在[Ba and Caruana, 2014]的研究中表明，淺層的或者簡化的CNNs所產生的效果與擁有百萬級別引數的深度CNNs根本沒法相比。因此，一個自然的想法是在不降低分類精確度的情況下發現並且拋棄深度CNNs中多餘的引數。
CNNs的壓縮最近已經吸引了一部分研究者的注意，這些研究者又可以進一步分為3類：引數共享、引數修剪和矩陣分解。關於引數分享，Gong等人[Y. Gong and Bourdev, 2014]通過在引數上進行向量量化來減少引數空間的冗餘。Chen等人[W. Chen and Chen, 2015]提出了HashenNet模型，該模型使用一個低消耗的hash函式將相連線的兩層的權重聚集到一個hash buckets中達到共享引數的目的。Cheng等人 [Y. Chengand Chang, 2015]提出在全連線層使用迴圈行列式預測代替原來的線性卷積預測，這減少了儲存消耗並且可以利用快速傅立葉變換（FFT）來加速計算。關於引數修剪，Srinivas和Babu [Srinivas and Babu, 2015]探索減少了減少神經元的個數，並且提出了一種“資料自由”的修剪演算法來移除多餘的神經元。Han等人[S. Han and Dally, 2015]旨在減少整個網路引數和操作的總數。以上兩種修剪演算法從引數數量和計算量兩方面進行了很大的削減。關於矩陣分解，Denil等人[M. Denil and Freitas, 2013]採用低秩分解方法以逐層的方式來壓縮全連線層的權重。Novikov等人[A. Novikov and Vetrov, 2015]將稠密的全連線層權重矩陣轉化為Tensor Train形式，以便於很大程度上減少引數的數目，同時保留層的表達能力。
然而，目前最好的方法[M. Denil and Freitas, 2013; Y. Gong and Bourdev, 2014; Srinivas and Babu,2015]仍舊依賴於分層的引數壓縮，這無法提供一個明確的模型來衡量分類精度整體的損失。換句話說，這些工作可以看成對CNNs的分層、內隱、區域性的壓縮。從“內隱”壓縮的角度，現有的工作都是隻考慮通過最小化歐氏距離

來逼近全連線層的引數W以求得W ̃。這種設定確實還存在很多問題，無法直接恢復用於分類的CNNs的輸出（即學習到的特徵）。從“區域性”壓縮的角度，一個更好的解決方案是以全域性的方式保留分類精度，對整個全連線層壓縮所有的引數。同時，內部層權重的相關性被忽略[M. Denil and Freitas, 2013; Y. Gong and Bourdev, 2014;Srinivas and Babu, 2015]。特別地，由於非線性啟用函式（如sigmoid.tahn[Y. LeCun and Muller, 2012],或者線性校正單元（ReLU）[Nair and Hinton, 2010]），網路中每一層W和W ̃小的量化誤差可能被放大和傳播，導致大的產生式誤差，這一點在我們的實驗中有所體現。

本文中，我們提出了一個新的“確定的”、“全域性的”壓縮CNNs框架，結構如圖1所示：

我們核心的創新點在於引入了全域性誤差重構演算法，該演算法可以對原始輸入的輸出與壓縮CNNs的輸出之間的重構誤差進行建模。以這種方式，隱含層和互動層之間的權重引數也被聯合壓縮。同時，我們沒有對原始資料與層間近似引數的重構誤差進行最小化，GER直接建立一個目標函式來恢復CNNs的輸出，也包括全連線層的非線性啟用函式的影響。

在實際應用中，我們通過基於SVD的低秩分解來對全連線層的權重進行初始化壓縮，從可跟蹤的角度這樣能夠放寬約束條件。接下來，像分層及粗壓縮會通過後向傳播最小化全域性誤差來進一步在層間聯合優化，該優化方法使用隨機梯度下降演算法很好地解決了非凸優化問題。

本文提出的演算法採用AlexNet和VGGNet-19兩個被廣泛採用的CNNs在ILSVRC2012影象分類庫上進行評估。試驗證明與其他目前最好的CNN壓縮方法[M. Denil and Freitas,
2013; Y. Gong and Bourdev, 2014; X. Zhang and Sun, 2015].相比，本文提出的GER壓縮方案在率失真方面表現最好。本文的主要貢獻主要在一下三方面：

l 引入明確的目標函式來直接最小化網路壓縮前後的重構誤差，而現存的其他方法都沒有直接最小化原始資料和壓縮引數的差值。

l 在網路壓縮的過程中我們對隱含層之間的連結進行全域性建模，能夠解決分層計算存在壓縮誤差的問題。

l 引入一種有效的優化方法解決相應的非凸優化問題，第一次使用基於SVD的低秩分解放寬約束條件，使用隨機梯度下降學習最優化引數。.

2.基於低秩分解的CNN初始化壓縮

2.1預備知識

我們定義一個特徵矩陣作為輸入來壓縮一個全連線CNN，這裡d是特徵向量的維數，n是特徵向量的個數（在初始的CNN網路AlexNet中可以是上一個卷基層的輸出），壓縮的全連線CNN前向傳播的第l層可以表示為：

此處是權重矩陣的元素，向量代表傳輸函式f(`)前後的啟用單元。一般地，f(.)是非線性變換，例如，線性校正單元（ReLU）、sigmoid、tanh等。

2.2 線性響應的分層低秩近似

首先考慮l層和l+1 層之間初始權重的低秩近似。為了找到一個近似的低秩子空間，我們最小化神經元響應的重構誤差：

此處，，對於同一個輸入訊號X，兩個線性變換的誤差可以改寫為

通過SVD求解公式3，，其中、是對應於U和V前k個奇異向量的子矩陣，的對角元素是相應的S的k個最大奇異值，通過在W上執行SVD，S是一個對角矩陣。接下來，我們得到的分解值，此處，，。

2.3 拓展至非線性響應
對於CNN中更常出現的非線性傳輸，近似矩陣的結果不等於原來的值。因此，在設計引數矩陣W的低秩近似時，非線性傳輸應該被考慮在內。以ReLU為例，ReLU定義為f(.)=max(.,0)，為了最小化ReLU響應的重構誤差，我們有：

此處，第一項是第l層的非近似輸入（l-1層的輸出），第二項是近似的l層輸入。公式4的求解能夠通過一個互動的求解程式來逐層優化。為了更清楚地說明，我們反向考慮這種逐層優化：以公式4為例，在優化中我們將固定為常數，記為，用代替。然後公式4中每一層的優化可以改寫為：

不幸的是，由於非線性引數的存在及低秩的限制，公式5也難以求解。為了得到一個可行的解決方法，我們將公式5放寬到：

此處，λ是懲罰引數，是與相同尺寸的一系列附加值。如果λ--->∞，公式6的結果將收斂於公式5的結果。為了求解公式6 ，我們進一步應用互動的求解程式，該程式固定，求解近似值，反之亦然。優化的具體細節如下：
互動步驟I：固定更新

我們將公式7改寫為秩迴歸問題

此處，是Frobenius範數。令，公式8可以通過GSVD求解。
1.GSVD將分解為
2.公式8中可以由給出，此處、是U、V的前k列，是S的前k個奇異值
3.得到分解值，這裡，

互動步驟 II：固定更新
向量中的每一個元素都是彼此獨立。我們將公式6 重寫為 1-D 優化過程：

此處，是的第j個輸入。由於ReLU的限制，我們分別考慮和兩種情況，然後我們得到公式9的結果。

注意：公式9中，如果，，其他。我們採用梯度下降解決上述1-D、非線性最小方差問題。
上述的互動式優化在Algorithm I 中進一步說明。

此處，是的第j個輸入。由於ReLU的限制，我們分別考慮和兩種情況，然後我們得到公式9的結果。

注意：公式9中，如果 < ，，其他。我們採用梯度下降解決上述1-D、非線性最小方差問題。
上述的互動式優化在Algorithm I 中進一步說明。

的初始值根據公式3的現象情況給出，理論上講，λ應逐步增大到無窮，然而，如果λ太大，互動求解程式很難有效。為了執行更多的互動次數，折中方案是我們首先增加λ至1，接下來在得到收斂之後的結果，此值作為所有全連線層壓縮的初始值。
3.通過全域性誤差重構進行層間壓縮
以自下而上的方式，使用低秩分解得到的CNN初始壓縮粗略近似於每一層的。正如上述討論的，壓縮誤差會逐層累加，導致輸出層產生大的總誤差。為了解決這個問題，本文提出的全域性誤差重構（GER）旨在在各層間進行聯合優化，如圖2所示

特別地，如果原始的CNN模型有m個全連線層，我們最小化非線性響應的全域性結構誤差的方法如下：

這裡，是輸出的非近似，包含隱含層的m-1個權重，如下：

為了找到可能的幾等，我們使用公式 4 的結果來放寬公式 12 的約束條件，令作為的相應矩陣。公式 12 可以被改寫為

這裡， l = 0,1，···m-1，可以寫為：

公式 15 中，和是通過求解公式 4 得到的 W 的近似分解。為了學習引數和，在後向傳播中採用了隨機梯度下降演算法，這需要計算目標函式與所有權重的梯度。因此，公式 14 中代價函式的誤差訊號通過下式得到

此處，，得到之後，我們計算目標函式與引數之間的兩個梯度：

此處， l = m-1,m-2,···， 0·。注意：隨機梯度下降演算法能降低計算誤差。 Algorithm 2 GER 優化演算法的具體細節。

4.實驗結果

為了評估GER 的效能，我們在ILSVRC2012影象分類資料集上進行了綜合實驗。我，將GER應用在兩個被廣泛應用的CNNs網路AlexNet和VGGNet-19，將其結果與最近提出的效果最好的演算法[M. Denil and Freitas, 2013; Y. Gong and Bourdev, 2014; X. Zhangand Sun, 2015]相比較。

4.1 實驗設定

資料集。

我們在ILSVRC影象分類資料集上基於CNN壓縮對GER進行測試。資料集包含來自1000類的超過1,000,000訓練資料，還包含50,000張驗證影象，其中每一類包含50張影象，我們從訓練樣本中隨機選取100,000張影象（每一類100張）用於訓練，並且在驗證樣本上進行測試。

實施細節

我們在AlexNet和VGGNet-19網路上應用GER。VGGNet-19包含16個卷基層和3個全連線層，AlexNet包含5個卷基層和3個全連線層。壓縮網路使用Caffee訓練，電腦配置為NVIDIAGTX TITAN X、12G顯示卡。學習率初始值0.01，每訓練10次減半；權重衰減設為0.0005，動量設定為0.9。

基準

我們將GER與最近提出的4中效果最好的方法進行比較，包括基於PQ的壓縮（PQ）[Y. Gong and Bourdev,2014]，低秩分解（LRD）[M. Denil andFreitas,2013]，通過互動求解程式的分層優化（AS）[X. Zhang and Sun, 2015]，二值壓縮（BIN）[Y. Gong andBourdev, 2014]。至於可替代方法，我們比較了GER與GER-IC，兩者的不同在於在第二部分（僅僅是在該部分，其他部分相同）後者是基於SVD來初始化壓縮的。

評估報告

驗證樣本的分類誤差被用作評估報告。我們使用top-1分類誤差和top-5分類誤差來評估不同的壓縮方法，然後我們從率失真的角度評價壓縮效能，這反應了壓縮率和分類誤差平衡。

率失真比較

我們採用2^5~2^10之間不同的階次k來實現不同的壓縮率。對PQ，我們固定中心的數目為256（8位），然後變化分割的維度s=1,2,4,8. 對於LRD和通過互動求解程式的分層優化這兩種方法，我們採用與GER相同的壓縮標準，k的變化範圍是2^5~2^10. 對於BIN，由於沒有引數可以調節，壓縮率固定為32.

top-1和top-5分類錯誤如圖3所示，該圖表明瞭在率失真上一致的趨勢。

在內部層近似方面，GER-IC實現了與LRD相似的分類誤差。然而，通過以全域性的方式明確地建模重構誤差，在壓縮全連線層時，GER的表現要好於LRD和AS。進一步解釋，GER得益於它的“確定的”壓縮，這有效地組合了初始的分層壓縮和層間全域性壓縮，然而，LRD和AS是不確定的壓縮，它只考慮了局部的內部層關係。注意，PQ取得了比LRD和AS更好的效能。然而，據圖3所示，PQ難以取得高的壓縮率，這可能是由於有限的編碼字典尺寸。相反的，與其他基準相比，GER取得了最好的率失真。最後，正如Gong等人發現的[Y. Gong and Bourdev, 2014]，再將壓縮率固定為32時，最簡單的二值壓縮取得了良好的效果。當對資料進行劇烈壓縮時，基本的二值量化也是一個很好的選擇。然而，當我們想控制壓縮率時，這種方法就很難被採用，反過來這也是我們方法的關鍵優勢。表1中固定壓縮率時的分類誤差表明，與其他基準相比，GER仍取得了最佳效果，特別是對於VGGNet-19。

單層誤差

我們固定初始的未壓縮版本的其它層來分析壓縮每一層的分類誤差。結果如圖4所示

我們發現，使用所有的基準壓縮前兩層卷基層（FC6和FC7）都不會降低準確率。相反，對所有基準除了GER，壓縮最後一個卷基層時都會導致巨大的分類誤差。這種優勢是因為GER能對所有層間通過調節和微調自動調整內部層誤差。

5.總結

本文中，我們提出通過一個新的全域性誤差重構方法壓縮卷積神經網路來減少模型的儲存，這使得在手機、嵌入式等記憶體有限的裝置中應用卷積神經網路成為可能。GER首先使用基於SVD的低秩分解近似類來粗略壓縮全連線層的引數。這種分層初始化壓縮在後向傳播中以全域性的方式被在層間進一步聯合優化。之前的方法只是考慮恢復內部權重引數，與此不同，GER還對原始輸出與壓縮CNNs輸出之間的重構誤差進行明確建模，這極大地減少了由非線性啟用造成的累積誤差。通過與最近的CNN壓縮方法相比，已經證明本文提出的GER方法能取得最好的率失真效果。接下來的工作，我們應該將該方法從全連線層擴充套件至卷基層，同時，進一步加速卷基層的計算。

基於全域性誤差重構的深度卷積神經網路壓縮方法

基於全域性誤差重構的深度卷積神經網路壓縮方法

基於深度卷積神經網路的單通道人聲與音樂的分離-論文翻譯

基於動態場景去模糊的多尺度深度卷積神經網路

基於深度卷積神經網路（D-CNN）的影象去噪方法

基於FPGA的深度卷積神經網路的加速器設計

優化基於FPGA的深度卷積神經網路的加速器設計

基於深度卷積神經網路進行人臉識別的原理是什麼？

基於深度卷積神經網路的高光譜遙感影象分類---PCA+2D-CNN(偽空譜特徵)

tensorflow學習筆記（第一天）-深度卷積神經網路

深度卷積神經網路學習（一）

深度學習 --- 深度卷積神經網路詳解（AlexNet 網路詳解）

【Coursera】吳恩達 deeplearning.ai 04.卷積神經網路第二週深度卷積神經網路課程筆記

吳恩達《深度學習-卷積神經網路》2--深度卷積神經網路

深度卷積神經網路影象風格變換 Deep Photo Style Transfer

深度卷積神經網路在目標檢測中發展

深度卷積神經網路的14種設計模式

深度卷積神經網路在目標檢測中的進展

深度卷積神經網路學習筆記（一）

論文閱讀-為什麼深度卷積神經網路對小目標的變換泛化效果很差？

更好的理解分析深度卷積神經網路

基於全域性誤差重構的深度卷積神經網路壓縮方法

相關推薦