學習筆記之——基於pytorch的卷積神經網路

阿新 • • 發佈：2018-11-03

本博文為本人的學習筆記。參考材料為《深度學習入門之——PyTorch》

pytorch中文網：https://www.pytorchtutorial.com/

關於反捲積：https://github.com/vdumoulin/conv_arithmetic/blob/master/README.md

關於卷積和反捲積函式中的引數——“dilation(int or tuple, optional) – 卷積核元素之間的間距”，相當於將卷積核變得稀疏了。

對於全連線神經網路，網路引數太多了。如，對於一張28*28的圖片輸入，第一個隱含層的單個神經元的權重數目就達28*28=784個。若多設定幾層隱含層、輸入圖片再大一點，引數量十分龐大。

卷積神經網路是一個3D容量的神經元。卷積層和全連線層包含引數，而啟用層和池化層不包含引數。引數通過梯度下降法來更新（或者Adam）。

卷積層中濾波器的引數是通過學習得到的。

與神經元連結的空間大小叫神經元的感受野（receptive field）。感受野的大小即filters size（濾波器的尺寸）。而感受野的深度必須和輸入輸入的深度一致。輸出的感受野深度等於the number of filters

CNN——引數共享、稀疏連結（區域性連結）

設定網路時，要注意步長限制

引數共享可以有效減少引數的個數。

下面開始構建簡單的卷積神經網路

import torch
import numpy as np
import torch.nn as nn

#define the model
class SimpleCNN(nn.Module):
	"""docstring for SimpleCNN"""
	def __init__(self):
		super(SimpleCNN, self).__init__()
		layer1=nn.Sequential()#Container class, We can add some basic modules in it.
		layer1.add_module('conv1',nn.Conv2d(in_channels=3,out_channels=32,kernel_size=3,stride=1,padding=1))
		layer1.add_module('relu1',nn.ReLU(True))
		layer1.add_module('pool1',nn.MaxPool2d(2,2))
		self.layer1=layer1

		layer2=nn.Sequential()
		layer2.add_module('conv2',nn.Conv2d(in_channels=32,out_channels=64,kernel_size=3,stride=1,padding=1))
		layer2.add_module('relu2',nn.ReLU(True))
		layer2.add_module('pool2',nn.MaxPool2d(2,2))
		self.layer2=layer2

		layer3=nn.Sequential()
		layer3.add_module('conv3',nn.Conv2d(in_channels=64,out_channels=128,kernel_size=3,stride=1,padding=1))
		layer3.add_module('relu3',nn.ReLU(True))
		layer3.add_module('pool3',nn.MaxPool2d(2,2))
		self.layer3=layer3

		layer4=nn.Sequential()
		layer4.add_module('fc1',nn.Linear(2048,512))
		layer4.add_module('fc_relu1',nn.ReLU(True))
		layer4.add_module('fc2',nn.Linear(512,64))
		layer4.add_module('fc_relu2',nn.ReLU(True))
		layer4.add_module('fc3',nn.Linear(64,10))
		self.layer4=layer4

	def forward(self,x):
		conv1=self.layer1(x)
		conv2=self.layer2(conv1)
		conv3=self.layer3(conv2)
		fc_input=conv3.view(conv3.size(0),-1)#A multi line Tensor is spliced into a row.
		fc_out=self.layer4(fc_input)
		return fc_out

model=SimpleCNN()
print(model)

run之後的結果：


for param in model.named_parameters():#get the name of the layyer, and the Iterator of parameters
	print(param[0])

結果如下圖所示

通過增加1*1的卷積層可以降低輸入層的維度，使網路引數減少，從而減少網路裡的複雜性。

在pytorch中的torchvision.model裡面有很多定義好的網路，同時大部分網路都有訓練好的引數。詳細可參考連結：

https://www.pytorchtutorial.com/docs/torchvision/torchvision-models/

下面實現一個demo，對MNIST資料集中手寫數字進行分類。MNIST資料集是一個手寫字型資料集，包含了0~9這10個數字，有55000張訓練集，10000張測試集i，5000張驗證集，圖片大小是28*28的灰度圖

import torch
from torch import optim
import torch.nn as nn
from torch.autograd import Variable
from torch.utils.data import DataLoader
from torchvision import datasets,transforms

torch.manual_seed(1)    # reproducible


#Hyperparameters
batch_size=50
learning_rate=1e-3
EPOCH=1


#Data preprocessing
data_tf=transforms.Compose([transforms.ToTensor(),transforms.Normalize([0.5],[0.5])])#take all of the preprocessing together
#.ToTensor():Standardization of Image
#normalization,Subtract the mean, divide by variance.


#download the MNIST
train_dataset=datasets.MNIST(root='./MNIST_data',train=True,transform=data_tf,download=True)
test_data=datasets.MNIST(root='./MNIST_data',train=False,transform=data_tf)

train_loader=DataLoader(dataset=train_dataset,batch_size=batch_size,shuffle=True)# mess up the data

#####################################################################################################################
class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        
        self.layer1=nn.Sequential(nn.Conv2d(in_channels=1,out_channels=16,kernel_size=3,stride=1,padding=0),#the number of feature=16*26*26
                                  nn.BatchNorm2d(16),
                                  nn.ReLU(),)#inplace=True,Changing the input data

        self.layer2=nn.Sequential(nn.Conv2d(in_channels=16,out_channels=32,kernel_size=3,stride=1,padding=0),#32*24*24
        							nn.BatchNorm2d(32),
        							nn.ReLU(),
        							nn.MaxPool2d(kernel_size=2,stride=2),)#32*12*12

        self.layer3=nn.Sequential(nn.Conv2d(in_channels=32,out_channels=64,kernel_size=3,stride=1,padding=0),#64*10*10
        							nn.BatchNorm2d(64),
        							nn.ReLU(),)

        self.layer4=nn.Sequential(nn.Conv2d(in_channels=64,out_channels=128,kernel_size=3,stride=1,padding=0),#128*8*8
        							nn.BatchNorm2d(128),
        							nn.ReLU(),
        							nn.MaxPool2d(kernel_size=2,stride=2),)#128*4*4

        self.fc=nn.Sequential(nn.Linear(128*4*4,1024),
        						nn.ReLU(),
        						nn.Linear(1024,128),
        						nn.ReLU(),
        						nn.Linear(128,10),)
        
    def forward(self,x):

    	x=self.layer1(x)
    	x=self.layer2(x)
    	x=self.layer3(x)
    	x=self.layer4(x)
    	x=x.view(x.size(0),-1)
    	output=self.fc(x)

    	return output
###########################################################################################################

#train
model=CNN()
print(model)

if torch.cuda.is_available():
	model=model.cuda()

criterion=nn.CrossEntropyLoss()
optimizer=optim.Adam(model.parameters(),lr=learning_rate)

for epoch in range(EPOCH):
    for step,(img,label) in enumerate(train_loader):
        if torch.cuda.is_available():
            img=Variable(img).cuda()#Nodes with a volatile attribute of True will not be derivation. and default is False
            label=Variable(label).cuda()
        else:
            img=Variable(img)
            label=Variable(label)
        output=model(img)
        loss=criterion(output,label)

        #reset gradients
        optimizer.zero_grad()
        #backward pass
        loss.backward()
        #update parameters
        optimizer.step()
        	

#test
model.eval()#evaluation Pattern,
#The dropout is turned off during the test, and the parameters in the BN are also used to retain the parameters during training, 
#so the test should enter the evaluation mode.

上面程式碼執行有點問題，下面給出新的程式碼

（參考：https://github.com/yunjey/pytorch-tutorial/blob/master/tutorials/02-intermediate/convolutional_neural_network/main.py#L35-L56）

import torch
import torch.nn as nn
import torchvision
#It includes the popular data set, model structure and commonly used image conversion tools.
import torchvision.transforms as transforms


#Device configuration
device=torch.device('cuda:0'if torch.cuda.is_available() else 'cpu')

#Hyper parameters
num_epochs=6
num_classes=10#number 0~9
batch_size=100
learning_rate=0.001

#MNIST dataset
train_dataset=torchvision.datasets.MNIST(root='./MNIST_data',train=True,transform=transforms.ToTensor(),download=True)
test_dataset=torchvision.datasets.MNIST(root='./MNIST_data',train=False,transform=transforms.ToTensor())

#data loader or you can call it data Preprocessing
#According to batch size, it is encapsulated into Tensor. 
#After that, Variable is only needed to be input into the model.
train_loader=torch.utils.data.DataLoader(dataset=train_dataset,batch_size=batch_size,shuffle=True)
test_loader=torch.utils.data.DataLoader(dataset=test_dataset,batch_size=batch_size,shuffle=False)

##########################################################
#define the CNN
class ConvNet(nn.Module):
    def __init__(self,num_classes=10):
        super(ConvNet,self).__init__()#input 1*28*28
        self.layer1=nn.Sequential(
                                  nn.Conv2d(in_channels=1,out_channels=16,kernel_size=5,stride=1,padding=2),#16*28*28
                                  nn.BatchNorm2d(16),
                                  nn.ReLU(),
                                  nn.MaxPool2d(kernel_size=2,stride=2)#16*14*14  
                                  )
        
        self.layer2=nn.Sequential(
                                  nn.Conv2d(in_channels=16,out_channels=32,kernel_size=5,stride=1,padding=2),#32*14*14
                                  nn.BatchNorm2d(32),
                                  nn.ReLU(),
                                  nn.MaxPool2d(kernel_size=2,stride=2)#32*7*7  
                                  )     
        
        self.fc=nn.Linear(7*7*32,num_classes)

        
    def forward(self,x):
        out=self.layer1(x)
        out=self.layer2(out)
        out=out.reshape(out.size(0),-1)
        out=self.fc(out)
        
        return out
        
model=ConvNet(num_classes).to(device)#this Sentence is see wherether CPU or GPU speed up

#loss and optimizer
criterion=nn.CrossEntropyLoss()
optimizer=torch.optim.Adam(model.parameters(),lr=learning_rate)

#traian the model
total_step=len(train_loader)#all of the train data, each itertation is the number of batch_size. the 
for epoch in range(num_epochs):
    for i,(images,labels) in enumerate(train_loader):
        images=images.to(device)
        labels=labels.to(device)
        
        #Forward pass
        outputs=model(images)
        loss=criterion(outputs,labels)
        
        #backward and optimize
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
        if(i+1)%100==0:
            print('Epoch[{}/{}],Step[{}/{}],Loss:{:.4f}'
                  .format(epoch+1,num_epochs,i+1,total_step,loss.item()))
    
#################################################################################
#test the model
model.eval()# eval mode (batchnorm uses moving mean/variance instead of mini-batch mean/variance)
with torch.no_grad():#Remove the gradient
    correct=0
    total=0
    for images,labels in test_loader:
        images=images.to(device)
        labels=labels.to(device)
        
        outputs=model(images)
        _,predicted=torch.max(outputs.data,1)#Returns the maximum value on the dimension=1.
        total+=labels.size(0)
        correct += (predicted == labels).sum().item()
        
    print('Test Accuracy of the model on the 10000 test images: {} %'.format(100 * correct / total))
        
# Save the model checkpoint
#torch.save(model.state_dict(), 'model.ckpt')

執行結果截圖

關於DataLoader（https://blog.csdn.net/u014380165/article/details/79058479）

該介面主要用來將自定義的資料讀取介面的輸出或者PyTorch已有的資料讀取介面的輸入按照batch size封裝成Tensor，後續只需要再包裝成Variable即可作為模型的輸入。

關於ReLU(inplace=True)

關於PyTorch進行訓練和測試時指定例項化的model模式為：train/eval

https://www.cnblogs.com/king-lps/p/8570021.html

關於optimizer.step()

關於torch.no_grad()

關於torch.max

學習筆記之——基於pytorch的殘差網路（deep residual network）

本博文為本人學習pytorch系列之——residual network。前面的博文（學習筆記之——基於深度學習的分類網路）也已經介紹過ResNet了。ResNet是2015年的ImageNet競賽的冠軍，由微軟研究院提出，通過引入residual block能夠成功地訓練高達

機器學習筆記：tensorflow實現卷積神經網路經典案例--識別手寫數字

從識別手寫數字的案例開始認識神經網路，並瞭解如何在tensorflow中一步步建立卷積神經網路。安裝tensorflow 資料來源 kaggle新手入門的數字識別案例，包含手寫0-9的灰度值影象的csv檔案，下載地址：https://www.

深度學習筆記5-tensorflow實現卷積神經網路

深度學習筆記5-tensorflow實現卷積神經網路在股票等預測模型中，可以從原始資料提取金融因子等特徵。而影象則無有效特徵，只能藉助SIFT、HOG等提取有效特徵，再集合SVM等機器學習演算法進行影象識別。卷積神經網路（CNN）提取的特徵則可以達到更好的效果，同時它不需要將特徵提取和

斯坦福大學深度學習公開課cs231n學習筆記（10）卷積神經網路

前記：20世紀60年代，Hubel和Wiesel在研究貓腦皮層中用於區域性敏感和方向選擇的神經元時，發現其獨特的網路結構可以有效地降低反饋神經網路的複雜性，繼而提出了卷積神經網路（Convolutio

機器學習筆記（四）卷積神經網路CNN

1.前言：卷積神經網路在計算視覺領域的表現十分出色,與普通的BP神經網路一樣，CNN同樣由神經元組成。其實卷積神經網路是卷積+神經網路，基本上由三部分組成：卷積層，pooling層，全連線層。 2.CNN：卷積層卷積是一個訊號領域的概念，我們這裡提

tensorflow學習筆記——影象識別與卷積神經網路

　　無論是之前學習的MNIST資料集還是Cifar資料集，相比真實環境下的影象識別問題，有兩個最大的問題，一是現實生活中的圖片解析度要遠高於32*32，而且影象的解析度也不會是固定的。二是現實生活中的物體類別很多，無論是10種還是100種都遠遠不夠，而且一張圖片中不會只出現一個種類的物體。為了更加貼近真實環境

學習筆記之——基於pytorch的卷積神經網路

本博文為本人的學習筆記。參考材料為《深度學習入門之——PyTorch》 pytorch中文網：https://www.pytorchtutorial.com/ 關於反捲積：https://github.com/vdumoulin/conv_arithmetic/blob/ma

學習筆記之——基於pytorch的SFTGAN（xintao程式碼學習，及資料處理部分的學習）

程式碼的框架仍然是——《https://github.com/xinntao/BasicSR》給出SFTGAN的論文《Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transfo

深度學習之七【卷積神經網路 CNN】

1.CNN的應用如果你能訓練人工智慧機器人唱歌，幹嘛還訓練它聊天？在 2017 年 4 月，研究人員使用 WaveNet 模型的變體生成了歌曲。原始論文和演示可以在此處找到。瞭解 Facebook 的創新 CNN 方法(Facebook) ，

吳恩達深度學習第四課：卷積神經網路（學習筆記2）

前言 1.之所以堅持記錄，是因為看到其他人寫的優秀部落格，內容準確詳實，思路清晰流暢，這也說明了作者對知識的深入思考。我也希望能儘量將筆記寫的準確、簡潔，方便自己回憶也方便別人參考； 2.昨天看到兩篇關於計算機視覺的發展介紹的文章：[觀點|朱鬆純：初探計算機

學習筆記之——基於pytorch的FSRCNN

本博文為本人學習基於pytorch的FSRCNN的學習筆記，僅供本人學習記錄用先採用data_aug.m來增廣資料再採用generate_train.m將資料生成.h5文件。至於測試集，此處只採用set5中的五張圖片，所以先不用generate_tes

深度學習之四：卷積神經網路基礎

計算機視覺在深度學習的幫助下取得了令人驚歎的進展，其中發揮重要作用的是卷積神經網路。本節總結了卷積神經的原理與實現方法。 1 卷積神經網路 1.1 計算機視覺與深度學習計算機視覺要解決的問題是如何讓機器理解現實世界的現象。目前主要處理的問題如影象

王小草【深度學習】筆記第四彈--卷積神經網路與遷移學習

標籤（空格分隔）：王小草深度學習筆記 1. 影象識別與定位影象的相關任務可以分成以下兩大類和四小類：影象識別，影象識別+定位，物體檢測，影象分割。影象的定位就是指在這個圖片中不但識別出有只貓，還把貓在圖片中的位置給精確地摳出來今天我們來講

Keras學習（四）——CNN卷積神經網路

本文主要介紹使用keras實現CNN對手寫資料集進行分類。示例程式碼： import numpy as np from keras.datasets import mnist from keras.utils import np_utils from keras.models impo

基於深度卷積神經網路的單通道人聲與音樂的分離-論文翻譯

主體內容：作為當前的一大熱門，語音識別在得到快速應用的同時，也要更適應不同場景的需求，特別是對於智慧手機而言，由於元器件的微型化導致對於語音處理方面的器件不可能很大，因此單通道上的語音分離技術就顯得極為重要，而語音分離正是語音識別的前端部分。而傳統的技術由於資

機器學習與深度學習系列連載：第二部分深度學習（十二）卷積神經網路 3 經典的模型（LeNet-5，AlexNet ，VGGNet，GoogLeNet，ResNet）

卷積神經網路 3 經典的模型經典的卷積神經網路模型是我們學習CNN的利器，不光是學習原理、架構、而且經典模型的超引數、引數，都是我們做遷移學習最好的源材料之一。 1. LeNet-5 [LeCun et al., 1998] 我們還是從CNN之父，LeCun大神在98年提出的模

機器學習與深度學習系列連載：第二部分深度學習（十一）卷積神經網路 2 Why CNN for Image？

卷積神經網路 2 Why CNN 為什麼處理圖片要用CNN？原因是：一個神經元無法看到整張圖片能夠聯絡到小的區域，並且引數更少圖片壓縮畫素不改變圖片內容 1. CNN 的特點卷積：一些卷積核遠遠小於圖片大小；同樣的pat

《TensorFlow：實戰Google深度學習框架》——6.3 卷積神經網路常用結構

1、卷積層圖6-8顯示了卷積層神經網路結構中重要的部分：濾波器（filter）或者核心（kernel）。過濾器可以將當前層神經網路上的一個子節點矩陣轉化為下一層神經網路上的一個單位節點矩陣。單位節點矩陣指的是一個長和寬都為1，但深度不限的節點矩陣。在一個卷積層巾，過濾器

《TensorFlow：實戰Google深度學習框架》——6.2 卷積神經網路簡介（卷積神經網路的基本網路結構及其與全連線神經網路的差異）

下圖為全連線神經網路與卷積神經網路的結構對比圖：由上圖來分析兩者的差異：全連線神經網路與卷積網路相同點 &nb

《TensorFlow：實戰Google深度學習框架》——6.3 卷積神經網路常用結構（池化層）

池化層在兩個卷積層之間，可以有效的縮小矩陣的尺寸（也可以減小矩陣深度，但實踐中一般不會這樣使用），co。池從而減少最後全連線層中的引數。池化層既可以加快計算速度也可以防止過度擬合問題的作用。池化層也是通過一個類似過濾器結構完成的，計算方式有兩種：最大池化層：採用最

學習筆記之——基於pytorch的卷積神經網路

相關推薦