經典計算機視覺論文筆記——《Going Deeper with Convolutions》

阿新 • • 發佈：2019-01-06

2014年imageNet挑戰賽冠軍，Inception系列的開創者，caffe作者賈揚清，google研發……使這篇論文成為深度學習與視覺領域的必讀論文，兩年時間引用量過千。私以為文中理論部分有點囉嗦，反覆強調sparse structure。但精彩之處還是其提出的一種特殊的inception網路結構。

技術概括

提出了一種新型的網路組建單元Inception。其特點是將幾種操作並行化，最後再將這幾種操作的輸出concatenation為一個多通道影象，作為下一層的輸入。這幾種操作包括：1*1，3*3，5*5的多解析度的卷積操作，外加一個max pooling操作。
提出了一種多loss的網路結構，在網路的中間部分就外接分類的softmaxloss，所有loss都會加權累加到一起作為總loss進行bp。

一些值得反思的細節

計算複雜度分析。GoogleNet即為Inception V1（後續還有V2-V4），共22層，比AlexNet多了14層，但引數少了12倍，大約500萬個引數，caffemodel只有40多M，適合記憶體資源較少的場景。一次預測需要15億次加乘。通過對Inception單元的合理組織，運算速度也會有2-3倍的提高（文中沒有說得太清楚，估計計算速度不是強項）。
大量使用了NIN的1*1卷積結構。這種結構的好處就是可以降維減參。
文中提出了引數過多帶來的影響：過擬合、計算負擔過重。所以要減參，即上下兩層的連線不要dense，要sparse。當然卷積就是一種sparse structure。但作者認為還不夠sparse，所以在每個patch進行convolution時，通過1*1kernel，讓連線變得更sparse。這種結構的壞處也很明顯，就是感受野更小更區域性化了，所以又加入了多解析度策略，讓1*1，3*3，5*5的kernel並行處理，覆蓋各種範圍。另外在3*3和5*5的convolution之前先做了一下1*1的convolution來降維減參。作者認為雖然引數變少了，連線變sparse了，但多層的stack結構是可以逼近dense結構的表達能力的。

採用了NIN的average pooling層，但最後還是接了一個全連線層，這樣會方便fine-tuning。比如待分的類別個數變了，NIN把倒數第二層的feature maps的個數寫死了，就沒法fine-tuning了。
中間加的分類器，只訓練時用，預測時不用。
訓練時的技巧：不同的取樣方式；不同解析度的crops；影象變換擴充。
預測時的技巧：不同取樣方式訓練7個不同分類器；多種不同crops——尺度4*正方形crops3*隨機crops6*水平flips2=144；7個分類器*144個crops=1008個結果做平均。
目標檢測時，框架同R-CNN，但改進了proposal部分，增大box的大小，增加proposal的覆蓋率。沒用bbox regression。

借鑑之處

新的網路結構的設計就是要遵循兩點：網路更深，但同時引數量不爆炸。全連線顯然是不行的，只能採用稀疏連線的方式，而稀疏連線就是各種卷積的變形與stack了。
使用ensemble一般都會提高精度。但計算量提高。比如文中1008倍的計算壓力，在併發量較大的預測時顯然是行不通的。

經典計算機視覺論文筆記——《Going Deeper with Convolutions》

2014年imageNet挑戰賽冠軍，Inception系列的開創者，caffe作者賈揚清，google研發……使這篇論文成為深度學習與視覺領域的必讀論文，兩年時間引用量過千。私以為文中理論部分有點囉嗦，反覆強調sparse structure。但精彩之處還

經典計算機視覺論文筆記——《Robust Real-Time Face Detection》

第一次讀這篇傳奇之作大概是九年前了，也就是2007年，而那時距論文正式發表（2004年）也已經有四年之久了。現在讀來，一些想法，在深度學習大行其道的今天仍然具有借鑑意義，讓人敬佩不已。 VJ人臉檢測器應該是歷史上第一個成功商業應用的實時人臉檢

經典計算機視覺論文筆記——DeepFace\DeepID\DeepID2\DeepID3\FaceNet\VGGFace彙總

1. DeepFace:Closing the Gap to Human-Level Performance in Face Verification 最早將深度學習用於人臉驗證的開創性工作。Facebook AI實驗室出品。動用了百萬級的大規模資料庫。典型的識別訊號提特

[論文閱讀] Going Deeper with Convolutions

一般來說更深的網路具有更好效果，更深的網路也面臨兩個問題。更深的網路擁有更多的引數，更容易過擬合。更深的網路對計算的要求也更高。針對上述問題的一個解決方法就是使用稀疏連線(convolutional layer)，而不是den

論文閱讀筆記四十二：Going deeper with convolutions (Inception V1 CVPR2014 )

存在區域分類論文定位獨立也會 rgb 線索論文原址：https://arxiv.org/pdf/1409.4842.pdf 代碼連接：https://github.com/titu1994/Inception-v4（包含v1,v2,v4）摘要

【深度學習經典論文翻譯2】GoogLeNet-Going Deeper with Convolutions全文翻譯

Christian Szegedy, Wei Liu, Yangqing Jia. et al 摘要我們提出了一個名為“Inception”的深度卷積神經網結構，其目標是將分類、識別ILSVRC14資料集的技術水平提高一個層次。這一結構的主要特徵是對網路內部計算資源的利用進行了優化。這一目標的實現是通

計算機視覺論文筆記五：Maximal Linear Embedding for Dimensionality Reduction

版權論文作者所有，本筆記僅用作學術交流,主要是做個筆記。這篇論文寫的很友好，很清楚，你腦子裡出現了什麼疑問，下一句就是答案。而且是工科思維，很多實現細節作者也會提到，整篇論文幾乎就是有不能更詳細註釋的程式碼！！我的鴿，被校友的論文圈粉了。我也要向著這種方向思考，寫作。IEEE

Going Deeper with Convolutions閱讀摘要

　論文連結：Going deeper with convolutions 　　程式碼下載： Abstract We propose a deep convolutional neural network architecture codenamed Incept

【Inception-v1】《Going Deeper with Convolutions》

CVPR-2015 1 Background and Motivation 作者的工作很大程度上是受到這兩個工作的啟發的 DNN model size 越大（more depth，more width）效果越好，但是這樣會有兩個 major draw

【Imagenet LSVRC系列模型】GoogLeNet-2014 Going Deeper with Convolutions

Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]. Cvpr, 2015.ImageNet 影象分類 2014 冠軍模型文中主要是提出一種稱為Inception的深度卷積神經網路結構。Incep

圖像分類（一）GoogLenet Inception_V1：Going deeper with convolutions

地方此外 -s 數值計算 mbed 原本樸素思路並行論文地址在該論文中作者提出了一種被稱為Inception Network的深度卷積神經網絡，它由若幹個Inception modules堆疊而成。Inception的主要特點是它能提高網絡中計算資源的

Inception——Going deeper with convolutions

線性不同的比例必須高質量個人包含尺度測試 1. 摘要作者提出了一個代號為 Inception 的卷積神經網絡架構，這也是作者在 2014 年 ImageNet 大規模視覺識別挑戰賽中用於分類和檢測的新技術。通過精心的設計，該架構提高了網絡內計算資源

計算機視覺-論文閱讀筆記-基於高效能檢測器與表觀特徵的多目標跟蹤

這篇筆記主要是對今年ECCV2016上的論文:POI:Multiple Object Tracking with High Performance Detection and Appearance Feature 進行整理. 這篇文章的基本思路是在每幀上用檢測器

【python下使用OpenCV實現計算機視覺讀書筆記2】圖像與字節的變換

ng- == color and pytho avi data- imwrite center import cv2 import numpy import os # Make an array of 120,000 ran

[計算機視覺論文速遞] 2018-03-20

通知：這篇推文有13篇論文速遞資訊，涉及影象分割、SLAM、顯著性、深度估計、車輛計數等方向影象分割[1]《Training of Convolutional Networks on Multiple Heterogeneous Datasets for Street Sce

[計算機視覺論文速遞] 2018-03-16

通知：本文有14篇論文速遞資訊，涉及目標檢測、影象分割、顯著性目標檢測、人臉識別和GAN等方向目標檢測[1]《Illumination-aware Faster R-CNN for Robust Multispectral Pedestrian Detection》Abstr

【專欄】- 計算機視覺論文研讀

計算機視覺論文研讀本專欄主要關注計算機視覺領域的論文研讀，關注的重點在於目標檢測(object detection)以及語義分割(semantic/instance segmentation)，包括全監督以及弱監督的方法。

計算機視覺自學筆記

計算機視覺是一門研究如何使機器“看”的科學，更進一步的說，就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺，並進一步做圖形處理，使電腦處理成為更適合人眼觀察或傳送給儀器檢測的影象。作為一個科學學科，計算機視覺研究相關的理論和技術，試圖建立能夠從影象或者多維

opencv3計算機視覺學習筆記-詞袋+svm

BOW實現步驟： 1.建立詞彙（特徵）詞典 2.得到訓練資料到字典的對映 3.選擇適當的分類器進行訓練 4.對新來的樣本，先對映到字典空間，然後利用得到的分類器進行分類 1.建立詞彙（特徵）詞典以SIFT 128維特徵作為例子。例如現在有1000張訓練圖片，對每一

計算機視覺論文整理

經典論文 ImageNet分類物體檢測物體跟蹤低階視覺邊緣檢測語義分割視覺注意力和顯著性物體識別人體姿態估計 CNN原理和性質（Understanding CNN）影象和語言影象解說視訊解說影象生成微軟ResNet 論

經典計算機視覺論文筆記——《Going Deeper with Convolutions》

技術概括

一些值得反思的細節

借鑑之處

相關推薦