深度神經網路優化論文總結

阿新 • • 發佈：2018-11-29

1、HanS, Mao H, Dally W J. Deep Compression: Compressing Deep NeuralNetworks with Pruning, Trained

Quantization and Huffman Coding[J].Fiber, 2015, 56(4):3--7.

主要內容：簡化和壓縮DNN模型，以減少計算量和記憶體的佔用。神經網路剪枝：移除冗餘連線並保證神經網路連線的有效性，從而將密集型神經網路轉化為稀疏型神經網路; 量化訓練：量化權重，並令多個連線共享相同的權重。僅儲存有效權重和索引，且每個引數只需要較少的位來表示; 可變長度編碼：利用有效權重的不均勻分佈，並在沒有訓練準確度損失的情況下使用可變長度編碼表徵權重。
方法：剪枝：移除神經網路結構的冗餘連線，刪除數值較小權值，稀疏矩陣新增0防止溢位。量化：聚類（劃分權值，浮點型32bit->整型2bit，共享權值）。通過聚類的方式劃分權值，並分類浮點型權值，同一類的權值用同一合適的整型表示，並共享此權值，僅儲存共享權值，索引，CodeBook。編碼：可變長度編碼。
創新點：不同於以往直接對深度神經網路進行優化，它針對於已經訓練好的網路進行優化，保證了訓練的準確度。
優點：減少了引數與計算量的情況下完全保留了預測準確度;不僅提高了推算速度，同時還降低了執行大型網路所需的計算資源與能源;剪枝和量化可以在不相互影響的情況下壓縮神經網路。深度壓縮令儲存需求變得很小

（兆位元組空間），所有的權重都可以在晶片上快取而不需要晶片外的DRAM。減輕記憶體和儲存開銷; 提高CPU加速比; 減少CPU能耗。
缺點：優化後的神經網路權重還是浮點數。
Note ：初始值選取：線性初始化有助於保留較大權值，往往較大權值更重要。

2、ZhouA, Yao A, Guo Y, et al. Incremental Network Quantization: TowardsLossless CNNs with Low-

PrecisionWeights[J]. 2017.

主要內容：提出了漸進式神經網路量化的思想，引入了三種操作：

引數分組，量化，重訓練。給定任意結構預先訓練的全精度（32位浮點）CNN模型，能將其轉換成無損的低位元二進位制模型。例如，將所有32位浮點權重轉換為2或0的冪，而不會損失模型精度。
創新點：網路生成由三個相互依賴的操作組成（權值分割，分組量化和再訓練）。將這個全精度浮點網路模型中的每一層引數分為不相交且互補的兩組，第一組中的引數直接被量化固定，另一組引數通過重訓練來補償量化給模型造成的精度損失。三個操作不斷迭代訓練網路，直到模型全部量化為止。同時分組方法為閥值比較，絕對值較大（更重要）的權值去做量化，較小的權值做重訓練。
優點：不同於韓鬆提出的DNN壓縮之後權值仍是浮點型，INQ得到的是二進位制化的引數，可以用簡單的二進制移位運算代替原來的浮點數乘法運算，簡化硬體計算。
缺點：…

2、Rastegari M, Ordonez V, Redmon J, et al. XNOR-Net: ImageNet Classification Using Binary Convolutional Neural

Networks[C]// European Conference on Computer Vision. Springer, Cham, 2016:525-542.

主要內容：介紹了兩種二值化網路：Binary-Weight-Networks和XNOR-Networks。其中，Binary-Weight-Networks所有權重值都用二值近似，僅通過加法和減法來估計卷積運算（不需要乘法）；XNOR-Networks，一種具有二值化權重和二值化輸入的深層神經網路模型。權重，卷積層和完全連線層的輸入都用二值化近似，可通過XNOR和位計數操作估計卷積。

創新點：通過二值化權重，來實現簡單，高效，準確的CNN近似。其二值化方法旨在使用二值操作找到卷積的最佳近似。

優點：Binary-Weight-Networks通過對權重W做二值化操作，達到減少模型儲存空間的目的，準確率接近全精度卷積神經網路；XNOR-Networks通過同時對權重W和輸入I做二值化操作，達到既減少模型儲存空間，又加速模型的目的。

缺點：XNOR-Networks的準確率影響也比較明顯。
參考部落格：https://blog.csdn.net/u014380165/article/details/77731595

深度神經網路優化論文總結

1、HanS, Mao H, Dally W J. Deep Compression: Compressing Deep NeuralNetworks with Pruning, Trained Quantization and Huffman Coding[J].Fiber, 2015,

深度神經網路優化策略彙總

接下來介紹卷積神經網路的各種改進措施，其中經典網路的改進措施已經在前面各個網路中介紹。針對卷積神經網路的改進措施主要在以下幾個方面：卷積層，池化層，啟用函式，損失函式，網路結構，正則化技術等方面。優化演算法對網路的訓練至關重要，在這裡我們單獨列出來了。 1.卷積層卷積層的改

深度神經網路優化策略之——殘差學習

問題起源　　深度學習普遍認為發端於2006年，根據Bengio的定義，深層網路由多層自適應非線性單元組成——即多層非線性模組的級聯，所有層次上都包含可訓練的引數，在工程實際操作中，深層神經網路通常是五層及以上，包含數百萬個可學習的自由引數的龐然大物。理論上，

【深度學習基礎5】深度神經網路的優化與調參(2)

轉載請註明出處。謝謝。本博文根據 coursera 吳恩達 Improving Deep Neural Networks: Hyperparameter tuning, Regularizati

深度神經網路加速與壓縮總結

模型加速與分類方法 Low-Rank Pruning(hot) Quantization(hot) Knowledge Distillation Compact Network Design Low-Rank SVD CP Decomposition Tuck

深度學習（卷積神經網路）問題總結

深度卷積網路涉及問題： 1.每個圖如何卷積：（1）一個圖如何變成幾個？（2）卷積核如何選擇？ 2.節點之間如何連線？ 3.S2-C3如何進行分配？ 4.1

Coursera吳恩達《優化深度神經網路》課程筆記（1）-- 深度學習的實用層面

Andrew Ng的深度學習專項課程的第一門課《Neural Networks and Deep Learning》的5份筆記我已經整理完畢。迷路的小夥伴請見如下連結：在接下來的幾次筆記中，我們將對第二門課《Improving Dee

Coursera吳恩達《優化深度神經網路》課程筆記（3）-- 超引數除錯、Batch正則化和程式設計框架

上節課我們主要介紹了深度神經網路的優化演算法。包括對原始資料集進行分割，使用mini-batch gradient descent。然後介紹了指數加權平均（Exponentially weighted averages）的概念以及偏移校正（bias corr

【深度學習】經典神經網路 VGG 論文解讀

VGG 在深度學習領域中非常有名，很多人 fine-tune 的時候都是下載 VGG 的預訓練過的權重模型，然後在次基礎上進行遷移學習。VGG 是 ImageNet 2014 年目標定位競賽的第一名，影象分類競賽的第二名，需要注意的是，影象分類競賽的第一名是大名

AlphaGo論文的譯文，用深度神經網路和樹搜尋征服圍棋：Mastering the game of Go with deep neural networks and tree search

前言：圍棋的英文是 the game of Go，標題翻譯為：《用深度神經網路和樹搜尋征服圍棋》。譯者簡介：大三，211，電腦科學與技術專業，平均分92分，專業第一。為了更好地翻譯此文，譯者查看了很多資料。譯者翻譯此論文已盡全力，不足之處希望讀者指出

深度學習網路tensorflow第四講__神經網路優化

√神經網路待優化的引數：神經網路中所有引數w 的個數 + 所有引數 b 的個數例如：輸入層隱藏層輸出層在該神經網路中，包含 1 個輸入層、1個隱藏層和 1 個輸出層，該神經網路的層數為 2 層。在該神經網路中，引數的個數是所有引數 w 的個數加上所有引數 b 的總數，第一層引數用三行四列的二階張量

基於深度神經網路的高光譜影響分類方法研究---MNF+自動編碼器+Softmax （準確率比較低，17年的論文）

論文地址基於深度神經網路的高光譜影響分類方法研究裝備學院學報遙感影像分類的問題：預處理複雜，高維特徵提取困難，分類不夠精確等缺陷首先採用最大噪聲分數來降低特徵空間維度，然後將自動編碼器與softmax多

深度學習系列——關於神經網路理解的總結

　　因為課題的需要，最近在學習深度學習方面的知識，因為是初學，博文中可能會有錯誤和不嚴謹的地方，歡迎大家批評指正、互相交流，好了言歸正傳。　　目前在人工智慧和大資料方向炒的最火的就是深度學習，深度學習是神經網路的一個大的分支，深度學習的基本結構是深度神經網路

Google深度學習筆記 TensorFlow實現與優化深度神經網路

全連線神經網路 Linear Model 載入lesson 1中的資料集將Data降維成一維，將label對映為one-hot encoding def reformat(dataset, labels): datas

【火爐煉AI】深度學習003-構建並訓練深度神經網路模型

【火爐煉AI】深度學習003-構建並訓練深度神經網路模型 (本文所使用的Python庫和版本號: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 前面我們講解過單層神經網路模型，發現它結構簡單，難以解決一些實際的比較複雜的問題，故而現

神經網路優化（二） - 滑動平均

1 滑動平均概述滑動平均（也稱為影子值）：記錄了每一個引數一段時間內過往值的平均，增加了模型的泛化性。滑動平均通常針對所有引數進行優化：W 和 b，簡單地理解，滑動平均像是給引數加了一個影子，引數變化，影子緩慢追隨。滑動平均的表示公式為影子 = 衰減率 * 影子 + ( 1 - 衰減率

#####好好好好####Keras深度神經網路訓練分類模型的四種方法

Github程式碼： Keras樣例解析歡迎光臨我的部落格：https://gaussic.github.io/2017/03/03/imdb-sentiment-classification/ (轉載請註明出處：https://gaussic.github.io) Keras的官方E

神經網路優化（二） - 搭建神經網路八股

為提高程式的可複用性，搭建模組化的神經網路八股 1 前向傳播前向傳播就是設計、搭建從輸入（引數 x ）到輸出（返回值為預測或分類結果 y ）的完整網路結構，實現前向傳播過程，一般將其放在 forward.py 檔案中前向傳播需要定義三個函式（實際上第一個函式是框架，第二、三個函式是賦初值過程）

神經網路優化：病態矩陣與條件數

一、病態矩陣求解方程組時如果對資料進行較小的擾動，則得出的結果具有很大波動，這樣的矩陣稱為病態矩陣。病態矩陣是一種特殊矩陣。指條件數很大的非奇異矩陣。病態矩陣的逆和以其為係數矩陣的方程組的界對微小擾動十分敏感，對數值求解會帶來很大困難。例如：現在有線性方程組： Ax =

神經網路優化：指數衰減計算平均值(滑動平均)

Polyak平均會平均優化演算法在引數空間訪問中的幾個點。如果t次迭代梯度下降訪問了點,那麼Polyak平均演算法的輸出是。當應用Polyak平均於非凸問題時，通常會使用指數衰減計算平均值：

深度神經網路優化論文總結

1、HanS, Mao H, Dally W J. Deep Compression: Compressing Deep NeuralNetworks with Pruning, Trained

Quantization and Huffman Coding[J].Fiber, 2015, 56(4):3--7.

2、ZhouA, Yao A, Guo Y, et al. Incremental Network Quantization: TowardsLossless CNNs with Low-

PrecisionWeights[J]. 2017.

2、Rastegari M, Ordonez V, Redmon J, et al. XNOR-Net: ImageNet Classification Using Binary Convolutional Neural

Networks[C]// European Conference on Computer Vision. Springer, Cham, 2016:525-542.

相關推薦