Learning both Weights and Connections for Efficient Neural Network -- 論文筆記

阿新 • • 發佈：2019-02-14

這是2015年斯坦福和英偉達的一篇論文。

1.簡介：

通過修剪訓練後網路中的不重要連線（connections），來減少網路所需要的引數，減少記憶體和cpu的消耗，使網路更加適應在移動裝置上執行。

2.idea思想：

1）首先訓練整個網路，判斷哪些是重要連線。

2）修剪不重要的連線。

3）重新訓練修剪後的網路，微調保留下來的引數。

3.達到的效果：

1）在ImageNet上，減少了AlexNet 9倍的引數，從61 million的引數減少到6.1 million的引數；VGG網路則更是減少了16倍，並且修剪後的網路的accuracy沒有下降。

2）可以防止過擬合

4.其它相關的工作：

1）用8位int型的activation代替16位float。

2）Network in Network和GoogleNet模型中使用了global average pooling代替FC層來減少引數，但在使用ImageNet的引數時，需要另外增加一個線性層。

3）dropout和本文的方法不同，dropout主要用來防止過擬合，並且是在訓練過程中就產生0連線，而本文的方法則是在網路訓練完之後對網路進行修剪，產生0連線。

4）HashNet這個本人沒有看過，論文裡作者猜想HashNet和pruning結合可能效果更好。

5.具體流程：

首先訓練整個網路，目的是找出哪些是重要的連線；接著設定一個threshold，pruning掉low-weight的連線，將密集的網路變成稀疏的網路；最後則是對餘下來的params進行微調，如果不微調，那麼對網路的效能會有很大的影響。如圖：

這裡寫圖片描述

而使用本文的方法需要很大的技巧性：

1）Regularization：需要選擇合適的regularization。L1正規化會將更多的params轉換成接近0，這在進行pruning之後，reTrain之前有很好的accuracy；L2正規化在pruning和reTrain之後會降低accuracy。

2）Dropout and capacity control：dropout被當做“soft dropout”，而本文的方法則被當做“hard dropout”；這是因為dropout中被drop的在新的訓練批時，可以被重新訓練；而本文的則是直接去掉連線connections。而在使用本文方法的時候，dropout的ratio也分pruning之前和pruning不一樣，具體如圖所示：

這裡寫圖片描述

3）Local Pruning and Parameter Co-adaptation：在reTrain的過程中，重新訓練pruning後儲存下來的weights比訓練再次初始化的weights更好。其次，為了克服vanish gradient problem的問題，作者只訓練pruning後shallow layer儲存下來的params。

4）Iterative Pruning:其實就是重複的pruning，反覆的找出不重要的連線然後pruning。

5）Pruning Neurons：一些0輸入或者0輸出的 neurons也能被pruned。

Learning both Weights and Connections for Efficient Neural Network -- 論文筆記

這是2015年斯坦福和英偉達的一篇論文。 1.簡介：通過修剪訓練後網路中的不重要連線（connections），來減少網路所需要的引數，減少記憶體和cpu的消耗，使網路更加適應在移動裝置上執行。 2.idea思想： 1）首先訓練整個網路

《Learning both Weights and Connections for Efficient Neural Networks》論文筆記

1. 論文思想深度神經網路在計算與儲存上都是密集的，這就妨礙了其在嵌入式裝置上的運用。為了解決該問題，便需要對模型進行剪枝。在本文中按照網路量級的排序，使得通過只學習重要的網路連線在不影響精度的情況下減少儲存與計算量。論文中的方法分為三步：首先，使用常規方法訓練模型；使用剪枝策略進

【論文閱讀】韓鬆《Efficient Methods And Hardware For Deep Learning》節選《Learning both Weights and Connections 》

Pruning Deep Neural Networks 本節內容主要來自NIPS 2015論文《Learning both Weights and Connections for Efﬁcient Neural Networks》。這部分主要介紹如何剪枝網路

蒸餾神經網路(Distill the Knowledge in a Neural Network) 論文筆記蒸餾神經網路(Distill the Knowledge in a Neural Network) 論文筆記

轉蒸餾神經網路(Distill the Knowledge in a Neural Network) 論文筆記 2017年08月06日 16:19:48 haoji00

網路結構搜尋（3） —— Simple and efficient architecture search for convolutional neural network

一、網路態射（Network Morphism）神經網路的結構幾乎都是朝著越來越深的方向發展，但是由人工來設計網路結構的代價非常大，在網路結構搜尋（1）、網路結構搜尋（2）中分析了NAS、ENAS的網路結構搜尋方法，通過RNN來學習一個網路結構引數構建模型，ENAS又在NAS的基礎上引入權值貢

[CVPR2015] Is object localization for free? – Weakly-supervised learning with convolutional neural networks論文筆記

sed pooling was 技術分享 sco 評測 5.0 ict highest p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 15.0px "Helvetica Neue"; color: #323333 } p.p2

課程一(Neural Networks and Deep Learning)，第二週（Basics of Neural Network programming）—— 1、10個測驗題（Neural N

--------------------------------------------------中文翻譯-------

論文閱讀《End-to-End Learning of Geometry and Context for Deep Stereo Regression》

註意 4.3 匹配算法 argmin hang 立體聲移動數據集聚集端到端學習幾何和背景的深度立體回歸摘要本文提出一種新型的深度學習網絡，用於從一對矯正過的立體圖像回歸得到其對應的視差圖。我們利用問題（對象）的幾何知識，形成一個使

Exploring Models and Data for Image Question Answering 論文翻譯

這項工作旨在解決基於影象的問答（QA）與新模型和資料集的問題。在我們的工作中，我們建議使用神經網路和視覺語義嵌入，而不需要諸如物件檢測和影象分割之類的中間階段來預測關於影象的簡單問題的答案。我們的模型比現有影象質量保證資料集上的唯一公佈結果好1.8倍。我們還提出了一種問題生成演算法，該演算法將

《Active Convolution- Learning the Shape of Convolution for Image Classification》論文閱讀

paper 動機以前的網路都是關注cnn的網路結構，比如ResNet，Inception等這裡關注卷積這個操作本身，貢獻提出了Active Convolution Unit，方法 ACU概念

Feed Forward and Backward Run in Deep Convolution Neural Network 論文閱讀筆記

徒手實現CNN：綜述論文詳解卷積網路的數學本質 Abstract 對卷積網路的數學本質和過程仍然不是太清楚，這也就是本論文的目的。我們使用灰度圖作為輸入資訊影象， ReLU 和 Sigmoid 啟用函式構建卷積網路的非線性屬性，交叉熵損失函式用於計算

《Wide & Deep Learning for Recommender Systems》論文筆記

推薦系統 CTR預估 CVR預估 0、概述線性模型被廣泛地應用於迴歸和分類問題，具有簡單、快速和可解釋性等優點，但是線性模型的表達能力有限，經常需要人工選擇特徵和交叉特徵才能取得一個良好的效果，但是實際工程中的特徵數量會很多，並且還會有大量的稀

Joint Deep Learning For Pedestrian Detection（論文筆記-深度學習：行人檢測）

一、摘要：行人檢測主要分為四部分：特徵提取、形變處理、遮擋處理和分類。現存方法都是四個部分獨立進行，本文聯合深度學習將四個部分結合在一起，最大化其能力。二、引言

A NEW HYPERSPECTRAL BAND SELECTION APPROACH BASED ON CONVOLUTIONAL NEURAL NETWORK文章筆記

方法可能 lec pan 結果 ica repr 貢獻 tps A NEW HYPERSPECTRAL BAND SELECTION APPROACH BASED ON CONVOLUTIONAL NEURAL NETWORK 文章地址：https://ieeexplor

HYPERSPECTRAL IMAGE CLASSIFICATION USING TWOCHANNEL DEEP CONVOLUTIONAL NEURAL NETWORK閱讀筆記

數據 eight 說明 enter 像素點維數 tran vertica 通用 HYPERSPECTRAL IMAGE CLASSIFICATION USING TWOCHANNEL DEEP CONVOLUTIONAL NEURAL NETWORK 論文地址：h

《Inception V3-Rethinking the Inception Architecture for Computer Vision》論文筆記

1. 論文思想在其它條件都滿足的（資料充足且足夠好）的情況下，增加模型的尺寸以及計算量會帶來實質上的優勢，但是可供計算的資源總是有限的，特別是在移動裝置上，並不能無節制的增加模型的尺寸。例如，在VggNet模型中使用的引數量是AlexNet引數量的三倍，實際取得的效果也是好於Ale

Question Retrieval with Distributed Representations and Participant Reputation in Community QA論文筆記

原文下載地址摘要社群問題的難點在於：重複性問題解決上述問題要採用Query retrieval(QR)，QR的難點在於：同義詞匯本文演算法：1）採用continuous bag-of-words(CBoW)模型對詞（word）進行 Distributed

實習點滴（7）--《Investigating LSTM for Punctuation Prediction》論文筆記

原文地址：http://lxie.nwpu-aslp.org/papers/2016ISCSLP-XKT.pdf 本文是利用BiLstm（雙向Lstm）+CRF模型，對片語間的標點符號進行預測。作者首先強調了，遞迴神經網路(

part-aligned系列論文：1707.Deeply-Learned Part-Aligned Representations for Person Re-Identification 論文筆記

Deeply-Learned Part-Aligned Representations for Person Re-Identification一種超簡單有效的行人對齊識別網路！ inspired by attention model，propose a pa

Multi-View Gait Recognition Based on A Spatial-Temporal Deep Neural Network論文翻譯和理解

Multi-View Gait Recognition Based on A Spatial-Temporal Deep Neural Network論文翻譯和理解翻譯格式：一句英文，一句中文結合圖來講解 ABSTRACT ABSTRACT This paper p

Learning both Weights and Connections for Efficient Neural Network -- 論文筆記

1.簡介：

通過修剪訓練後網路中的不重要連線（connections），來減少網路所需要的引數，減少記憶體和cpu的消耗，使網路更加適應在移動裝置上執行。

2.idea思想：

1）首先訓練整個網路，判斷哪些是重要連線。

2）修剪不重要的連線。

3）重新訓練修剪後的網路，微調保留下來的引數。

3.達到的效果：

1）在ImageNet上，減少了AlexNet 9倍的引數，從61 million的引數減少到6.1 million的引數；VGG網路則更是減少了16倍，並且修剪後的網路的accuracy沒有下降。

2）可以防止過擬合

4.其它相關的工作：

1）用8位int型的activation代替16位float。

2）Network in Network和GoogleNet模型中使用了global average pooling代替FC層來減少引數，但在使用ImageNet的引數時，需要另外增加一個線性層。

3）dropout和本文的方法不同，dropout主要用來防止過擬合，並且是在訓練過程中就產生0連線，而本文的方法則是在網路訓練完之後對網路進行修剪，產生0連線。

4）HashNet這個本人沒有看過，論文裡作者猜想HashNet和pruning結合可能效果更好。

5.具體流程：

首先訓練整個網路，目的是找出哪些是重要的連線；接著設定一個threshold，pruning掉low-weight的連線，將密集的網路變成稀疏的網路；最後則是對餘下來的params進行微調，如果不微調，那麼對網路的效能會有很大的影響。如圖：

而使用本文的方法需要很大的技巧性：

1）Regularization：需要選擇合適的regularization。L1正規化會將更多的params轉換成接近0，這在進行pruning之後，reTrain之前有很好的accuracy；L2正規化在pruning和reTrain之後會降低accuracy。

3）Local Pruning and Parameter Co-adaptation：在reTrain的過程中，重新訓練pruning後儲存下來的weights比訓練再次初始化的weights更好。其次，為了克服vanish gradient problem的問題，作者只訓練pruning後shallow layer儲存下來的params。

4）Iterative Pruning:其實就是重複的pruning，反覆的找出不重要的連線然後pruning。

5）Pruning Neurons：一些0輸入或者0輸出的 neurons也能被pruned。

相關推薦