深度學習之基礎模型-Inception-V3

阿新 • • 發佈：2019-02-05

Although increased model size and computational cost tend to translate to immediate quality gains for most tasks (as long as enough labeled data is provided for training), computational efficiency and low parameter count are still enabling factors for various use cases such as mobile vision and big-data scenarios.

從論文中，可以看出作者主要考慮的是雖然網路的深度增加給很多工帶來了很多好處，但是模型的大小和計算效率也很關鍵，尤其是對於一些移動裝置或者大資料場景，就顯得很有必要了。

作者指出，儘管VGGNet在特徵提取方面具有非常簡潔的優勢，但是也消耗了大量的計算資源，另一方面，GoogLeNet（Inception-V1）在記憶體和計算複雜度方面做了限制下，也能達到很好的效果。

GoogLeNet包含5million引數，只是AlexNet的112，其中AlexNet包含60million引數
VGGNet包含的引數比AlexNet的3倍還多

通用設計原則

避免採用帶有瓶頸的層，尤其在網路結構開始的時候。對於一個前向傳播網路，可以將其看作一個有向五環圖（從輸入到分類或者回歸層）。將輸入與輸出進行分開，都能導致大量的資訊從分開處流失。一般的情況下，特徵圖的大小從輸入到輸出應該緩慢下降。理論上講，很多資訊不能通過特徵維數來得到，比如相關性結構。維度智慧代表一些粗略的資訊。

高維度能夠很更容易在網路的區域性進行處理。在卷積網路結構中，增加非線效能夠使得更多的特徵解耦合。從而使的網路訓練速度更快。
空間聚合能夠在低維嵌入進行，然而不會帶來任何表達能的減弱。例如，在進行3x3的卷積時，可以在空間聚合之前，對輸入進行降維，而不會帶來嚴重的影響。原因：如果採用空間聚合，則相鄰的位置的資訊具有強相關性，即使進行了降維，也不會帶來太多的損失，並且維數的降低，也能夠加速網路學習。
平衡網路的寬度和深度。最優的網路可以通過平衡每一個階段的濾波器的個數和網路的深度達到。網路的寬度和深度的增加可以使的網路達到了一個更高的效果。但是，最優的網路結構都是通過同時來提升網路的寬度和深度，但是也需要考慮計算資源的分配。

大卷積->小卷積

考慮1x1卷積後面緊跟3x3卷積，由於啟用層的相鄰位置是高度相關的，因此這種先降維後聚合的操作也可以達到類似的區域性表達效果。
任何的降維都能減少網路的引數。從而，合適的卷積分解，能得到更多的解耦合的特徵，這也有助於提高網路訓練的速度。另一方面，也可以利用節省下來的記憶體去增加filter-bank的大小，使得模型能哦股在單個機器上進行訓練。
3x3的卷積相對5x5的卷積能減少更多的引數。因此可以利用兩個3x3的小卷積代替一個5x5的卷積核，表達能力沒有減弱，但引數卻減少很多(9+925)[利用小卷積代替大卷積的思想在VGG中也有討論]

網路結構

遵循上面的原則，對Inception-v進行了改進

原始的Inception模組

將5x5的卷積改為2個3x3的卷積，得到

進一步，作者深入討論了將NxN的卷積，分解成1xN和Nx1的卷積疊加

根據這種規則提出瞭如下結構：

將NxN結構分解為1xN和Nx1的疊加，能減少很多計算量。但是不建議在網路的開始階段使用，效果並不好。但是在中間層使用，能達到不錯的效果（中間處於12～20層的結構中）。這種尺度下，7x7的卷積分解成1x7和7x1的卷積後，呆了很好的效果

遵循通用構造原則中的第2條，在8x8的特徵層上，利用這種分解然後聚合的結構來提升高維度的表達能力

輔助分類器

這種做法在GoogLeNet上就已經使用，認為這種輔助分類器，在網路訓練過程中扮演著非常重要的角色，能有效的將梯度傳播到底層。但是作者發現輔助分類器並沒有提升收斂速度，但是卻起到了正則化的作用：

如果輔助分類器使用了batch-normalized或者dropout層，最終的分類器效果更好

有效降低特徵圖尺寸

通常，卷積網路會利用pooling操作來降低特徵圖的大小。為了避免出現bottleneck現象，在應用Max Pooling或者average pooling之前，可以適當的擴大特徵層的維度。

如果將dxd大小k層的特徵圖，變成d2xd2大小，2k層的特徵圖，我們需要首先計算一個步長為1的2k個卷積核的卷積操作，然後應用傳統的pooling操作，即，總共有2d2k2個操作。另一種方式是，先進性pooling，在進行卷積操作，此時的計算複雜度為2(d2)2k2，雖然減少了計算量，但是帶來另外一個問題，那就是網路出現了bottleneck，表達能力不足。

鑑於，上述的reduction操作，帶來的問題，作者考慮了另外一種方式，來降低特徵的解析度。同時並行使用卷積和池化操作，步長為2，然後在把特徵進行疊加。如下

網路結構

圖中用到了figure5，6，7中的結構，再次列舉如下

問題：

論文的Figure 9和Figure 10中提到的320，是怎麼來的？？
Table 1中的引數怎麼分配和計算的??

label Smoothing

通過標籤平滑進行正則化處理，

p(k|x)=exp(zk)∑Ki=1exp(zk)

對任意的標籤k∈{1...K}，其中zi表示模型的邏輯輸出。

定義交叉熵loss：

l=−∑k=1Klog(p(k))q(k)

其導數為：

∂l∂zk=p(k)−q(k)

由於標籤都是0，1型別，在計算最終的loss的時候，q(k)相當於一個δk,y函式。這個和我們最終想要得到的結果稍微有點出入，我麼最終想要的

zy≫zk,forallk≠y

這樣，我們可以稍微對標籤做平滑處理

q′(k|x)=(1−ϵ)δk,y+ϵu(k)

如果u(k)是一個均勻分佈，則

q′=(1−ϵ)δk,y+ϵK

另一種解釋：考慮交叉熵，有

H(q′,p)=−∑k−1Klogp(k)q′(k)=(1−ϵ)H(q,p)+ϵH(u,p)

H(u,p)可以寫成KL散度的形式

H(u,p)=DKL(u||p)+H(u)

Performance

對比不同的感受野
- 299x299：步長為2，然後接max pooling
- 151x151：步長為1，然後接max pooling
- 79x79：步長為1，沒有接max pooling
  三者的引數是相同的，但感受野不同，最終的結果表明感受野越大，效果越好，但是差別不大。但是，如果單純的根據輸入解析度減少網路的大小，則最終的效果要差很多。
模型的效果

參考文獻

深度學習之基礎模型-Inception-V3

Although increased model size and computational cost tend to translate to immediate quality gains for most tasks (as long as eno

深度學習之基礎模型-mobileNet

MobileNets are based on streamlined architecture that uses depthwise separable convolutions to build light weight deep nueral ne

論文筆記---深度學習之VGG模型解讀

———————————————————————————————————————————————優雅的分割線如今深度學習發展火熱，但很多優秀的文章都是基於經典文章，經典文章中的一句一詞都值得推敲和分析。此外，深度學習雖然一直被人詬病缺乏足夠令人信服的理論，但不代表我們不

深度學習之基礎(一)

#baidu => buy vedio => dl basic 機器學習是一門不需要外部程式指示而讓計算機有能力自我學習的學科；而學習是指對於經驗(E)、任務(T)和效能(P),如果隨著E

TensorFlow 深度學習框架（9）-- 經典卷積網路模型 : LeNet-5 模型 & Inception-v3 模型

LeNet -5 模型LeNet-5 模型總共有 7 層，以數字識別為例，圖展示了 LeNet-5 模型的架構第一層，卷積層這一層的輸入就是原始的影象畫素，LeNet-5 模型接受的輸入層大小為 32*32*1 。第一個卷積層過濾器的尺寸為 5 * 5，深度為 6，步長為 1

Tensorflow深度學習之十二：基礎圖像處理之二

fcm 數字 ssi port con tty .net term file Tensorflow深度學習之十二：基礎圖像處理之二 from：https://blog.csdn.net/davincil/article/details/76598474 首先放出

深度學習之模型構建

water ssi sum sta eat rom col ffffff oss 標準模型 from keras.utils import plot_model from keras.models import Model from keras.layers import

C++基礎學習之記憶體模型與名稱空間(5)

單獨編譯將程式分為三個部分：標頭檔案：包含結構宣告和使用這些結構的函式的原型。原始碼檔案：包含與結構有關的函式的程式碼。原始碼檔案：包含呼叫與結構相關的函式的程式碼。一般儘量避免將函式定義或變數宣告放到標頭檔案中，防止出現重複定義的問題。標頭

深度學習之---yolov1,v2,v3詳解

（寫在前面：如果你想 run 起來，立馬想看看效果，那就直接跳轉到最後一張，動手實踐，看了結果再來往前看吧，開始吧······）一、YOLOv1 簡介這裡不再贅述，之前的我的一個 GitChat 詳盡的講述了整個程式碼段的含義，以及如何一步步的去實現它，可參照這裡手把手實踐YOLO深度殘

深度學習之影象分類模型AlexNet解讀

版權宣告：本文為博主原創文章 https://blog.csdn.net/sunbaigui/article/details/39938097 在imagenet上的影象分類challenge上Alex提出的alexnet網路結構模型贏得了2012屆的冠軍。要研究CNN型別

深度學習之儲存和讀取tensorflow模型

儲存和讀取 TensorFlow 模型儲存變數載入變數訓練一個模型並儲存它的權重載入訓練好的模型訓練一個模型的時間很長。但是你一旦關閉了 TensorFlow session，你所有訓練的權重和偏置項都丟失了。如果你計劃在之

深度學習之PyTorch實戰（1）——基礎學習及搭建環境

　　最近在學習PyTorch框架，買了一本《深度學習之PyTorch實戰計算機視覺》，從學習開始，小編會整理學習筆記，並部落格記錄，希望自己好好學完這本書，最後能熟練應用此框架。　　PyTorch是美國網際網路巨頭Facebook在深度學習框架Torch的基礎上使用Python重寫的一個全新的深度學習框架，

深度學習之PyTorch實戰（2）——神經網路模型搭建和引數優化

　　上一篇部落格先搭建了基礎環境，並熟悉了基礎知識，本節基於此，再進行深一步的學習。　　接下來看看如何基於PyTorch深度學習框架用簡單快捷的方式搭建出複雜的神經網路模型，同時讓模型引數的優化方法趨於高效。如同使用PyTorch中的自動梯度方法一樣，在搭建複雜的神經網路模型的時候，我們也可以使用PyTor

深度學習之模型fine-tuning（微調網路）

目前呢，caffe，theano,torch是當下比較流行的Deep Learning的深度學習框架，樓主最近也在做一些與此相關的事情。在這裡，我主要介紹一下如何在Caffe上微調網路，適應我們自己特定的新任務。一般來說我們自己需要做的方向，比如在一些特定的領域的識別分類中，我們很難拿到大量的資料。因為像在

乾貨 | 深度學習之卷積神經網路(CNN)的模型結構

微信公眾號關鍵字全網搜尋最新排名【機器學習演算法】：排名第一【機器學習】：排名第一【Python】：排名第三【演算法】：排名第四前言在前面我們講述了DNN的模型與前向反向傳播演算法。而在DNN大類中，卷積神經網路(Convolutional Neural Networks，以下簡稱CNN)是最

Tensorflow深度學習之十二：基礎影象處理之二

首先放出原始影象： 1、影象的翻轉 import tensorflow as tf import cv2 # 這裡定義一個tensorflow讀取的圖片格式轉換為opencv讀取的圖片格式的函式 # 請注意： # 在tensorflow中，一個畫素

深度學習之影象分類模型AlexNet結構分析和tensorflow實現

在ImageNet上的影象分類challenge上，Hinton和他的學生Alex Krizhevsky提出的AlexNet網路結構模型贏得了2012屆的冠軍，重新整理了Image Classification的機率。因此，要研究CNN型別深度學習模型在影象分

tensorflow學習筆記十六：tensorflow官方文件學習 Image Recognition（Inception v3模型）

我們大腦的成像過程似乎很容易。人們毫不費力地就能區分出獅子和美洲虎，閱讀符號，或是識別面孔。但是這些任務對於計算機而言卻是一個大難題：它們之所以看上去簡單，是因為我們的大腦有著超乎想象的能力來理解影象。在過去幾年裡，機器學習在解決這些難題方面取得了巨大的進步。其中，

深度學習之數學基礎（概率與統計）

3-1、為什麼使用概率？概率論是用於表示不確定性陳述的數學框架，即它是對事物不確定性的度量。在人工智慧領域，我們主要以兩種方式來使用概率論。首先，概率法則告訴我們AI系統應該如何推理，所以我們設計一些演算法來計算或者近似由概率論匯出的表示式。其次，我們可以用概率

深度學習之Python 指令碼訓練keras mnist 數字識別模型

本指令碼是訓練keras 的mnist 數字識別程式，以前發過了，今天把預測實現了，# Larger CNN for the MNIST Dataset # 2.Negative dimension size caused by subtracting 5 from 1

深度學習之基礎模型-Inception-V3

通用設計原則

大卷積->小卷積

網路結構

輔助分類器

有效降低特徵圖尺寸

網路結構

label Smoothing

Performance

參考文獻

相關推薦