讀論文：deep Learning 深度學習合集

阿新 • • 發佈：2019-01-14

Deep Learning

Very Deep Convolutional Networks for Large-Scale Image Recognition

ICLR 2015

問題

網路模型不夠深

方法**

用3個 3x3的核替換 1個 7x7的核
- 更多的非線性對映 3 vs. 1
- 更少的引數 $3 * (3^{2} C^{2})$ vs. $7^{2} C^{2}$

收穫

多個小核代替大核更有優勢

參考

Network In Network

ICLR 2014

問題

之前的CNN如AlexNet引數過多
卷積層是線性的，抽象特徵的能力有限
本文想解決以上兩個問題

方法

MLP卷積層，即用1x1的卷積，然後Relu啟用
- 因為CNN高層特徵其實是低層特徵通過某種運算的組合
- 作者就根據這個想法，提出在每個區域性感受野中進行更加複雜的運算
把FC層用global average pooling代替
- 減少過擬合
- 減少引數

收穫

1x1的卷積很有用，類似MLP中的用啟用函式把線性變成非線性的過程，還能起到通道降維的作用
既然類似，能不能嘗試把dropout加入到CNN中呢（在用1x1的卷積之前，隨機置feature maps中一些值為0）？

參考

Going Deeper with Convolutions

CVPR 2015

問題

增加網路的深度和寬度會帶來過擬合的問題
訓練過程中會使得很多引數趨向於0 -> 稀疏
- 計算機的基礎結構在遇到稀疏資料計算時會很不高效，使用稀疏矩陣會使得效率大大降低
- 但是稀疏性對深度神經網路是有用的，這與生物學中Hebbian法則“有些神經元響應基本一致，即同時興奮或抑制”一致
本文想設計一種既能利用稀疏性，又可以利用稠密計算的網路結構

方法

在卷積層處理前，先用1x1的卷積核將它們聚合（資訊壓縮）後再卷積
- 降低運算量
- 增加非線性
用多個尺度的卷積核 1x1，3x3，5x5 還有 3x3 max pooling提取特徵，然後組合成一層的feature maps（same padding）
- 增加了網路的width，另一方面增加了網路對尺度的適應性

收穫

1x1的卷積核是一個將稀疏變稠密的方法之一
用多個尺度的卷積核提取特徵比一個尺度要好

參考

Deep Residual Learning for Image Recognition

CVPR 2016

問題

深模型的問題：梯度消失與爆炸，導致難以找到最優值
- 現有方案：
- normalized initialization
- intermediate normalization layers
模型更深
- 預測精度無法進一步提升
- 訓練和驗證損失值，反而比淺層的損失值更大

方法

Residual Learning
即 F(x) := H(x) - x
skip connections
即一層的輸出，直接跳躍多層，連結給另一層

收穫

這種殘差結構有效解決了梯度消失和爆炸，以後設計深的模型需借鑑
skip connections這種思路在其他很多領域都能借鑑

參考

Squeeze-and-Excitation Networks

arXiv:1709

問題

為了提高網路的表示能力，許多現有的工作已經顯示出增強空間編碼的好處
所以作者想到能不能從其他層面來考慮去提升效能，比如考慮特徵通道之間的關係

方法

提出 Squeeze-and-Excitation Networks
採用了一種全新的“特徵重標定”策略
具體來說，就是通過學習的方式來自動獲取到每個特徵通道的重要程度，然後依照這個重要程度去提升有用的特徵並抑制對當前任務用處不大的特徵

收穫

SE模組可以嵌入到自己的網路裡，具有很強的泛化性，計算量增加可忽略不計

參考

Dropout: A Simple Way to Prevent Neural Networks from Overfitting

JMLR 15

問題

With limited training data, however, many of these complicated relationships will be the result of sampling noise, so they will exist in the training set but not in real test data even if it is drawn from the same distribution.
即深度神經網路訓練出來的結果會受到噪聲的影響，會導致過擬合
論文Introduction第三段全是說問題

方法

The term “dropout” refers to dropping out units (hidden and visible) in a neural network. By dropping a unit out, we mean temporarily removing it from the network, along with all its incoming and outgoing connections
程式碼: d =random.rand(a.shape) < keep_prob

收穫

Droput能在全連結網路中有效解決過擬合問題，在玻爾茲曼機等圖形模型也可以被廣泛應用

參考

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shif

ICML 2015

問題

Internal Covariate Shif ：the change in the distribution of network activations due to the change in network parameters during training
傳統的方法是對輸入進行白化處理
- 即通過線性變換使其均值為0，方差為1，並且降低輸入的冗餘性
- 白化的時候，某些節點中數值的更新則被白化消除了，於是引數一直增長，但網路的輸出和損失幾乎沒有變化
- 計算整個訓練樣本的協方差矩陣，計算量過大
作者希望找到一種演算法不僅能夠進行可微分的歸一化，還能不用在整個訓練集上進行操作

方法

對特徵的每個維度單獨做歸一化，而非以往的所有輸入單元聯合白化
用每個mini-batch的期望和方差來估計全域性的期望和方差
引入兩個可學習的引數γ(k)，β(k)，對x做線性處理（是為了在加速收斂和表徵破壞之間，留一個trade off的空間）

收穫

BN能加速收斂
深模型時要採用BN

參考

Learning and Transferring Mid-Level Image Representations using Convolutional Neural Networks

CVPR’14

問題

Learning CNNs, however, amounts to estimating millions of parameters and requires a very large number of annotated image samples. This property currently prevents application of CNNs to problems with limited training data

方法

![])

刪除了softmax層，加上了兩層自適應層

收穫

可以估根據自己的資料量的大小，進行 fine-tuning

參考

Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet ClassificationI

ICCV 2015

問題

Relu啟用函式不是0均值輸出，我們希望像tanh那樣輸出的均值是0
對於非常深的模型，隨機初始化權重很難converge。“Xavier”初始化對Relu和Prelu無效。

本文提出了一種新的啟用函式解決了問題1，一種新的初始化方法用於Relu

方法

提出Parametric Relu(PRelu)代替Relu，使錯誤率降低
- PRelu: $f (y_{i}) = m a x (0, y_{i}) + a_{i} m i n (0, y_{i})$
- 當 $a_{i}$ 很小時就是Leaky Relu( $a_{i} = 0.01$ )
- $a i$ 可以求導，所以PRelu可以通過反向傳播來訓練
提出新的初始化權重的方法
- 適用於深度網路+Relu類啟用函式
- 是基於方差的計算，詳細推到見論文2.2
- 結果權重滿足均值為0，方差為 $\frac{2}{n_{l}}$ 的高斯分佈
- python程式碼：W = np.random.randn(fan_in, fan_out) / np.sqrt(fan_in / 2) # layer initialization

收穫

以後追求極低錯誤率可以嘗試用PRelu
可以嘗試找出通用公式，把某些現有的東西（Relu）歸成一種特例（PRelu的一種特例）
從0開始設計深度網路時可以考慮本文初始化權重的方法

參考

Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding

ICIR‘16

問題

Neural networks are both computationally intensive and memory intensive, making them difficult to deploy on embedded systems with limited hardware resources

方法

Prunes the network：只保留一些重要的連線；
Quantize the weights：通過權值量化來共享一些weights；
Huffman coding：通過霍夫曼編碼進一步壓縮；

參考

Deep Networks with Stochastic Depth

ECCV’16

問題

training very deep networks comes with its own set of challenges
- The gradients can vanish
the forward flow often diminishes
the training time can be painfully slow

方法

during training :
- for each mini-batch, randomly drop a subset of layers and bypass them with the identity function
- 效果：reduces training time substantially and improves the test error significantly on almost all data sets

收穫

隨機深度的方法很好理解，也算一種整合方法，集成了不同深度的網路

參考

Snapshot Ensembles: Train 1, get M for free

ICLR’17

問題

Ensembles of neural networks are known to be much more robust and accurate than individual networks. However, training multiple deep networks for model averaging is computationally expensive
即整合網路比單個網路更具有魯棒性和準確性，但是訓練多個深度網路的模型代價太大

方法

Our approach leverages the non-convex nature of neural networks and the ability of SGD to converge to and escape from local minima on demand. Instead of training M neural networks independently from scratch, we let SGD converge M times to local minima along its optimization path. Each time the model converges, we save the weights and add the corresponding network to our ensemble. We then restart the optimization with a large learning rate to escape the current local minimum. More specifically, we adopt the cycling procedure suggested by Loshchilov & Hutter (2016), in which the learning rate is abruptly raised and then quickly lowered to follow a cosine function
即先用很大的學習率，然後用很小的學習率到達區域性最優後
儲存模型，新增到整合中
重複

收穫

Snapshot Ensembling 可以作為一個提升準確率的技巧來用

參考

Deep Mutual Learning

arXiv:1706

問題

本文旨在研究如何利用多個模型來提高影象識別的準確度，常用的方法是ensemble多個模型的結果來提高準確度，但是ensemble多個模型意味著更多的計算量。本文則提出用多個模型一起訓練，互相學習，使得每個單模型都能提高泛化能力。

方法

這裡寫圖片描述

DML的核心思想是希望兩個分類器的概率預測分佈能夠一樣，而評價兩個概率分佈相似度的就是KL散度
假設兩個分類器分別是和，輸出的概率分佈分別和，則從到的KL距離定義為
- $D_{K L} (p_{2} | | p_{1}) = \sum_{i = 1}^{N} \sum_{m = 1}^{M} p_{2}^{m} (x_{i}) l o g \frac{p_{2}^{m} (x_{i})}{p_{1}^{m} (x_{i})}$
- 即把 $p_{2}$ 看作grand truth來計算兩個分佈的相對熵，最終網路 $θ_{1}$ 的損失函式 $L_{θ_{1}}$ 定義為：
- $L_{θ_{1}} = L_{C_{1}} + D_{K L} (p_{2} | | p_{1})$

讀論文：deep Learning 深度學習合集

Deep Learning Very Deep Convolutional Networks for Large-Scale Image Recognition ICLR 2015 問題網路模型不夠深方法** 用3個 3x3的核替換

深度學習 deep learning 深度學習框架 caffe 深入學習過程

深度學習（Deep Learning）核心技術開發與應用培訓班主辦單位：中國管理科學研究院執業資格認證培訓中心一，時間地點： 2018年09月13日— 2018年09月16日北京（機房上課，每人一臺電腦進行實際案例操作，贈送 U盤拷貝資料及課件和軟體）二，培訓目標： 1，

Deep learning深度學習的十大開源框架

Google開源了TensorFlow（GitHub），此舉在深度學習領域影響巨大，因為Google在人工智慧領域的研發成績斐然，有著雄厚的人才儲備，而且Google自己的Gmail和搜尋引擎都在使用自行研發的深度學習工具。對於希望在應用中整合深度學習功能的開發者來說，Git

[Deep Learning] 深度學習中消失的梯度

　　好久沒有更新blog了，最近抽時間看了Nielsen的《Neural Networks and Deep Learning》感覺小有收穫，分享給大家。　　瞭解深度學習的同學可能知道，目前深度學習面臨的一個問題就是在網路訓練的過程中存在梯度消失問題（vanishing gradient problem）

AWS deep learning 深度學習_亞馬遜深度學習服務

許多組織開始越來越多地轉向深度學習，因為它支援計算機進行獨立學習和執行任務，幾乎無需任何監督，從而可為科學和工業領域帶來諸多非凡的優勢。與傳統的機器學習不同，深度學習試圖通過建立人造的“神經網路”來模擬人類大腦學習和處理資訊的方式，以便從資料中提取複雜的概念和關係。深度學習模型在

Deep Learning(深度學習)程式碼/課程/學習資料整理

轉載自：http://blog.csdn.net/u013854886/article/details/48177251 1. Deep Learning課程(由淺入深)：我們組的一個Deep Learning的比較全面、概括的介紹，視訊：Part1，Part2，Slid

【李宏毅深度學習合輯】Advanced Topics in Deep Learning - Imitation Learning

advance HA common exp img 技術分享 treat get som You have to force experts to treat some uncommon and extreme situations.

機器學習與深度學習系列連載：第二部分深度學習（九）Keras- “hello world” of deep learning

Keras Kearas 是深度學習小白程式碼入門的最佳工具之一。如果想提升、練習程式碼能力，還是建議演算法徒手python實現。複雜的深度神經網路專案還是推薦TensorFlow或者Pytorch Keras是一個高層神經網路API，Keras由純Pyt

機器學習與深度學習系列連載：第二部分深度學習（七）深度學習技巧4（Deep learning tips- Dropout）

深度學習技巧4（ Dropout） Dropout 在2012年imagenet 比賽中大放異彩，是當時CNN模型奪冠的功勳環節之一。那什麼是Dropout 我們先直觀的理解：練武功的時候，訓練的時候腳上綁上重物等到練成下山的時候：我們從幾個方面來解

機器學習與深度學習系列連載：第二部分深度學習（六）深度學習技巧3（Deep learning tips- Early stopping and Regularization）

深度學習技巧3（ Early stopping and Regularization）本節我們一起探討 Early stopping and Regularization，這兩個技巧不是深度學習特有的方法，是機器學習通用的方法。 1. Early stopp

機器學習 Machine Learning 深度學習 Deep Learning 資料

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

機器學習 Machine Learning 深度學習 Deep Learning 資料 Chapter 1

翻譯：開始閱讀深度學習研究論文：為什麼和如何做

Getting started with reading Deep Learning Research papers: The Why and the How 當你讀完那本書或者完成了關於深度學習的線上課程後，你如何繼續學習呢?你如何變得“自給自足”，這樣你就不需要依靠別人來打破這個領

《deep learning》學習筆記（8）——深度模型中的優化

機器學習中的演算法涉及諸多的優化問題，典型的就是利用梯度下降法(gradient descent)求使損失函式 J(theta) 下降的模型引數 theta 。在深度學習，尤其是深度神經網路的訓練和預測中，大的模型往往要花上數天甚至是數月的訓練時間，因此雖然

影象隱寫術分析論文筆記：Deep learning for steganalysis via convolutional neural networks

好久沒有寫論文筆記了，這裡開始一個新任務，即影象的steganalysis任務的深度網路模型。現在是論文閱讀階段，會陸續分享一些相關論文，以及基礎知識，以及傳統方法的思路，以資借鑑。這一篇是Media Watermarking, Security, and Forensi

論文筆記：Deep Learning [nature review by Lecun, Bengio, & Hinton]

假設我們需要訓練一個深度神經網路來預測一段文字序列的下一個單詞。我們用一個one-of-N的0-1向量來表示上下文中出現的單詞。神經網路將首先通過一個embedding層為每一個輸入的0-1向量生成一個word vector，並通過剩下的隱藏層將這些word vector轉化為目標單詞的word vector

機器學習(Machine Learning)&深度學習(Deep Learning)資料集合

機器學習(Machine Learning)&深度學習(Deep Learning)資料原文連結：https://github.com/ty4z2008/Qix/blob/master/dl.md#%E6%B3%A8%E6%9C%BA%E5%99%A8

機器學習(Machine Learning)&深度學習(Deep Learning)資料

介紹:這是一篇介紹機器學習歷史的文章，介紹很全面，從感知機、神經網路、決策樹、SVM、Adaboost到隨機森林、Deep Learning. 介紹:這是瑞士人工智慧實驗室Jurgen Schmidhuber寫的最新版本《神經網路與深度學習綜述》本綜述的特點是以時間排序，

《deep learning》學習筆記（6）——深度前饋網路

6.1 例項：學習 XOR 通過學習一個表示來解決 XOR 問題。圖上的粗體數字標明瞭學得的函式必須在每個點輸出的值。(左) 直接應用於原始輸入的線性模型不能實現 XOR 函式。當 x 1 = 0 時，模型的輸出必須隨著 x 2 的增大而增大。當 x

從TensorFlow到PyTorch：九大深度學習框架哪款最適合你？

方法愛好 board ebo 部分速度智能這也解釋器開源的深度學習神經網絡正步入成熟，而現在有許多框架具備為個性化方案提供先進的機器學習和人工智能的能力。那麽如何決定哪個開源框架最適合你呢？本文試圖通過對比深度學習各大框架的優缺點，從而為各位讀者提供一個參考。你

讀論文：deep Learning 深度學習合集

Deep Learning

Very Deep Convolutional Networks for Large-Scale Image Recognition

Network In Network

Going Deeper with Convolutions

Deep Residual Learning for Image Recognition

Squeeze-and-Excitation Networks

Dropout: A Simple Way to Prevent Neural Networks from Overfitting

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shif

Learning and Transferring Mid-Level Image Representations using Convolutional Neural Networks

Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet ClassificationI

Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding

Deep Networks with Stochastic Depth

Snapshot Ensembles: Train 1, get M for free

Deep Mutual Learning

相關推薦