筆記——CNN Architectures（cs231n 斯坦福計算機視覺公開課）

阿新 • • 發佈：2018-12-31

常見的 CNN Architectures

LeNet-5
AlexNet
VGG
GoogLeNet
ResNet

一些計算：

全連線層、卷積、池化操作對於維度的改變：

Fully Connected Layer：暴力拉平操作，不管原來是什麼樣的長*寬*深。

$image \: \: \: size:32\times 32\times \times 3 \Rightarrow 3072 \times 1$

假設上圖是一個分類神經網路的最後兩層，該全連線層連線著輸出層，輸出層給出十個類別的數值。每一行權重 $W$ 都表示一個 template，也就是一個類別，比如貓啊狗啊青蛙啊。

如圖，左邊粉色塊狀 $image \: \: \: size:32\times 32\times \times 3$ ，右邊藍色塊狀表示一個卷積核。經過6個 $5\times 5\times 3$ 的卷積核後

得到了一個新的 image： $28\times 28\times 6$

（所以卷積核會改變輸入的深度）

卷積操作後的輸出：

輸入： $W_{1}\times H_{1}\times D_{1}$

濾波器： $K$ 個 $F\times F\times D_{1}$

stride： $S$

輸出：

$W_{2} = \left ( W_{1}-F +2P\right )/S+1$

$H_{2} = \left ( H_{1}-F +2P\right )/S+1$

$D2=K$

濾波器： $K$ 個，一般是 $2^{x}$ 個。

1. LeNet（1998）

架構：

CONV 1 POOL 1 CONV 2 POOL 2 FC 3 FC 4

細節：

卷積核 $5\times 5$ ，stride $=1$

池化層 $2\times 2$ ，stride $=2$

2. AlexNet （2012，8 layer）

AlexNet 是ImageNet Large Scale Visual Recognition Challenge (ILSVRC)的第一個基於CNN的第一名。

架構：

CONV1 - MAX POOL1 - NORM1 - CONV2 - MAX POOL2 - NORM2 - CONV3 - CONV4 - CONV5 - Max POOL3 - FC6 - FC7- FC8

CONV1: 96 個 $11\times 11$ 的卷積核， $stride=4$

CONV1的輸入維度: 227x227x3 images

CONV1的輸出維度：即 $55\times 55\times 96$ （提示： $\left ( 277-11 \right )/4+1=55$ ）

CONV1需要學習的引數： $11\times 11\times 3\times 96 = 34848\approx 35K$ （卷積核的長*寬*深度*數量，深度取決於影象的深度）

(卷積核是需要學習的，96個卷積核一種有多少個數值就是多少個需要被學習的引數)

Note：卷積層CONV1會改變輸出維度的深度，深度為卷積核的數量。因為每一個卷積核都會輸出一個 $55\times 55$

的 feature map，這些 feature map 是疊放的，構成新的深度。

MAX POOL1： $3\times 3$ ， $stride=2$

MAX POOL1的輸入維度： $55\times 55\times 96$

MAX POOL1的輸出維度： $27\times 27\times 96$ （相當於對 CONV1層得到的每一個 feature map 做 pooling）

POOL1需要學習的引數：0個

Note：池化層MAX POOL1不會改變輸出維度的深度。

具體維度如下：

INPUT	[227x227x3]
CONV1	[55x55x96]	96 11x11 filters at stride 4	pad 0
MAX POOL1	[27x27x96]	3x3 filters at stride 2
NORM1	[27x27x96]	Normalization layer
CONV2	[27x27x256]	256 5x5 filters at stride 1	pad 2
MAX POOL2	[13x13x256]	3x3 filters at stride 2
NORM2	[13x13x256]	Normalization layer
CONV3	[13x13x384]	384 3x3 filters at stride 1	pad 1
CONV4	[13x13x384]	384 3x3 filters at stride 1	pad 1
CONV5	[13x13x256]	256 3x3 filters at stride 1	pad 1
MAX POOL3	[6x6x256]	3x3 filters at stride 2
FC6	[4096]	4096 neurons
FC7	[4096]	4096 neurons
FC8	[1000]	1000 neurons (class scores)

3. VGG（2014，19 layer）

和AlexNet 相比，VGG 採用的是更小的卷積核，網路也更深。

VGG 僅採用 3x3， stride 1，pad 1的卷積層, 2x2， stride 2的最大池化層。

那麼就有一個問題就Q：為什麼VGG 採用更小的卷積核？

從感受野的等效性、引數數量、網路深度的角度來看

3個 $3\times3$ ，stride $=1$ 的卷積核的感受野等於一個 $7\times7$ 的卷積核，如下圖所示（畫圖果然是理清思路的利器啊利器）。

從感受野的等效性、引數數量、網路深度三個角度來比較，如下表：

3x3的卷積核	1x1的卷積核
相同感受野（7個輸入）	3個	1個
引數量	$3\times \left ( 3^{2}\times C^{2} \right )$	$7^{2}\times C^{2}$
深度	3	1

深度越深，就加入了更多的非線性，大概對神經網路來說是很好的。

持續更新中......

4. GoogLeNet（2014，22 layer）

5. ResNet

筆記——CNN Architectures（cs231n 斯坦福計算機視覺公開課）

常見的 CNN Architectures LeNet-5 AlexNet VGG GoogLeNet ResNet 一些計算：全連線層、卷積、池化操作對於維度的改變： Fully Connected Layer：暴力

李飛飛深度學習與計算機視覺公開課

今天開始學習李飛飛老師的公開課。希望可以順利入門深度學習。一、k最近鄰與線性分類器 k近鄰分類器工作方式是高效的得到本聯合訓練集。附：python處理資料基礎：import numpy as np # Create the following rank 2 arra

# cs231n 深度學習與計算機視覺(資料彙總）--程式碼及說明 python3.x和python2.x的版本（每次更新完成的作業）

cs231n 深度學習與計算機視覺(資料彙總）–程式碼及說明 python3.x和python2.x的版本（每次更新完成的作業）標籤（空格分隔）：神經網路 1.python2.x版本程式碼、課程 2.python3.x版本這個是2017

【中文字幕】2017春季CS231n 斯坦福深度視覺識別課,李飛飛

【中文字幕】2017春季CS231n 斯坦福深度視覺識別課開課時間：2017年11月10日開課時長：講座共有16個lecture，每週五更新1個lecture，每個lecture時長 60 min左右連結：http://www.mooc.ai/course/

2018年BAT面試經驗分享（計算機視覺演算法崗）

百度面試：（計算機視覺演算法）一面： SVM，線性迴歸和邏輯迴歸的原理及區別；簡歷上的專案內容。（40min）二面：簡歷專案的內容（全問、很細）比如：簡歷上面寫道用caffe框架作深度學習訓練任務，問到caffe繼續模型訓練用到的引數（-snapshot）,模型fine

斯坦福機器學習公開課--整理筆記（…

跟老闆聊了很久之後，決定換一個研究方向，本來想專門寫一篇博文說說資料探勘與機器學習，後來轉念也想也算了，畢竟之前還是有很多可以用上的知識，這幾天準備把Andrew大牛的機器學習公開課重新刷一遍，簡單做一下筆記好了。第一課是基本介紹，略過。第二課：監督學習應用.梯度下降：這節課主要探究的是監督

信息安全工程師教程學習筆記匯總（思維導圖及考試要點）

信息安全工程師信息安全工程師教程思維導圖https://www.moondream.cn/?p=178信息安全工程師教程思維導圖鏈接：https://pan.baidu.com/s/1CePwH94kIEAEN0ZDhZuTEQ 密碼：請進入備考群獲取信息安全工程師學習筆記匯總信息安全工程師學習筆記一之第一章

WebGL停車場三維視覺化管理系統 DEMO（thingjs 停車場3D視覺化管理）

隨著社會的發展，城市中的汽車越來越多。車輛集中存放管理的場所被人類提出車輛進出的秩序、車輛存放的安全性、車輛存放管理的有償性等要求。停車場系統應用現代機械電子及通訊科學技術，集控制硬體、軟體於一體。隨著科技的發展，停車場管理系統也日新月異，目前最為專業化的停車場系統為免取卡停車場。簡易DEMO

斯坦福機器學習公開課筆記十三推薦系統

也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！授課老師：Andrew Ng1、problem formulation(問題產生)在平時購物的時候我們都會看到網站把向我們推薦的商品放在醒目位置，其實這就是推薦

CSAPP lab1 datalab-handout（深入瞭解計算機系統實驗一）

能看懂的就不寫註釋了 /* * CS:APP Data Lab * * <Please put your name and userid here> * * bits.c - Source file with your sol

深度學習讀書筆記之RBM（限制波爾茲曼機）

深度學習讀書筆記之RBM 宣告： 1）看到其他部落格如@zouxy09都有個宣告，老衲也抄襲一下這個東西 2）該博文是整理自網上很大牛和機器學習專家所無私奉獻的資料的。具體引用的資料請看參考文獻。具體的版本宣告也參考原文獻。 3）本文僅供學術交流，非商用。所以每一部分具體

斯坦福機器學習公開課筆記(十五)--[應用]照片OCR技術

1、problem description and pipeline(問題描述和流水線) OCR是optical character recognition的縮寫，翻譯過來就是光學字元辨識。照片中的OCR技術其實就是識別中照片中存在的字元，例如下面這幅圖：關於過程

計算機專業課學習清單（書籍+公開課）

OS CSAPP(CS 15-213) xv6(MIT 6.828) 鳥哥的 LINUX 私房菜程式設計師的自我修養 UNIX 環境高階程式設計網路計算機網路：自頂向下方法 TCP/IP 詳解 U

斯坦福機器學習公開課筆記(十三)--推薦系統

授課老師：Andrew Ng 1、problem formulation(問題產生) 在平時購物的時候我們都會看到網站把向我們推薦的商品放在醒目位置，其實這就是推薦系統。現在考慮一個電影推薦系統的例子，我們擁有一些使用者對於一些電影的評分，如下：從上面可以看到，使

斯坦福機器學習公開課筆記(一)--單變數線性迴歸

授課老師：Andrew Ng 1、model representation(建立模型) 考慮一個問題，如果給定一些房屋售價和房屋面積的資料，現在要預測給定其他面積時的房屋售價，那該怎麼辦？其實這是一個線性迴歸問題，給定的資料作為訓練樣本，用其訓練得到一個表示售價和麵積關

Python入門筆記2 序列（字串、元組、列表）

操作字串的方法： a.索引取值 a='abcde' a[0]、a[1]取a中元素，但一次只可以取一個。用+號連線，如，a[1]+a[2]。得‘ab’ b.切片可以從字串中進行擷取分正負數，正數表示從左往右取，從0開始；負數代表從右往左取，最後一位為-1

十五、Oracle學習筆記：序列（用於表字段值自增）

一、序列 1.序列是資料庫中為資料表提供的可以自動生成的唯一數值，通常用來給主鍵欄位賦值。可以遞增或者遞減。作為主鍵的欄位，通常不人為賦值，需要使用序列自動生成的值。 2.序列關鍵字 sequence 序列和表一樣，都是資料庫中的物件。通常序列為一張表提供主鍵值。

15.Spring學習筆記_AOP基礎（by尚矽谷_佟剛）

什麼是AOP 需求1-日誌：在程式執行期間追蹤正在發生的活動需求2-驗證：希望計算器只能處理正數的運算程式碼實現片段問題程式碼混亂：越來越多的非業務需求(日誌和驗證等)加入

Java學習筆記--異常處理（傳智播客的總結）

背景：我們的java程式也是會存在某些不正常的情況的，這些不正常的情況我們就統稱異常。（還有一種是IO流的異常要包裝成執行時異常）異常體系： ———-| Throwable 所以異常或者錯誤類的超類 ————–|Erro

數字故宮（360全景+紀錄片+數據庫+公開課）

像素紀錄片 mooc name nbsp amp npm 得到 color 一、360全景（不分先後，下同）【全景故宮】http://mob.visualbusiness.cn/gugong-pc/v1.0.52/index.html 【AirPano故宮全景】http

筆記——CNN Architectures（cs231n 斯坦福計算機視覺公開課）

LeNet-5

AlexNet

VGG

GoogLeNet

ResNet

1. LeNet（1998）

2. AlexNet （2012，8 layer）

3. VGG（2014，19 layer）

4. GoogLeNet（2014，22 layer）

5. ResNet

相關推薦