用PyTorch實現一個卷積神經網路進行影象分類

阿新 • • 發佈：2019-02-15

1. 回顧

在進入這一篇部落格的內容之前，我們先確保已經成功安裝好PyTorch，可以參考我之前的一篇部落格“Ubuntu12.04下PyTorch詳細安裝記錄”：

http://blog.csdn.net/wblgers1234/article/details/72902016

接下來，我們用設計一個簡單的卷積神經網路的方式來熟悉PyTorch的用法。

2. 設計卷積神經網路

在設計複雜的神經網路之前，我們依然考慮按照斯坦福大學的“UFLDL Tutorial”的CNN部分來構建一個簡單的卷積神經網路，即按照以下的設計：

輸入層->二維特徵卷積->sigmoid激勵->均值池化->全連線網路->softmax輸出

按照下面的程式碼對應來看神經網路的結構。註釋得很清晰，有不清楚的可以留言，這裡就不再贅述。

class CNN_net(nn.Module):
    def __init__(self):
        # 先執行nn.Module的初始化函式
        super(CNN_net, self).__init__()
        # 卷積層的定義，輸入為1channel的灰度圖，輸出為4特徵，每個卷積kernal為9*9
        self.conv = nn.Conv2d(1, 4, 9)
        # 均值池化
        self.pool = nn.AvgPool2d(2 
, 2)
        # 全連線後接softmax
        self.fc = nn.Linear(10*10*4, 10)
        self.softmax = nn.Softmax()

    def forward(self, x):
        # 卷積層，分別是二維卷積->sigmoid激勵->池化
        out = self.conv(x)
        out = F.sigmoid(out)
        out = self.pool(out)
        print(out.size())
        # 將特徵的維度進行變化(batchSize*filterDim*featureDim*featureDim->batchSize*flat_features) 

        out = out.view(-1, self.num_flat_features(out))
        # 全連線層和softmax處理
        out = self.fc(out)
        out = self.softmax(out)
        return out
    def num_flat_features(self, x):
        # 四維特徵，第一維是batchSize
        size = x.size()[1:]
        num_features = 1
        for s in size:
            num_features *= s
        return num_features

3. 資料準備

還記得torchvision嗎？我們在做和影象有關的實驗時會更多地與它打交道。這次我們選擇最簡單也是最廣為人知的MNIST資料庫來訓練和測試CNN。同時在torchvision中有一個torchvision.datasets，它為很多常用的影象資料庫提供介面，其中就包括MNIST。

from torchvision.datasets import MNIST

需要先下載MNIST，並且轉換為PyTorch可以識別的資料格式：

# MNIST影象資料的轉換函式
trans_img = transforms.Compose([
        transforms.ToTensor()
    ])

# 下載MNIST的訓練集和測試集
trainset = MNIST('./MNIST', train=True, transform=trans_img, download=True)
testset = MNIST('./MNIST', train=False, transform=trans_img, download=True)

我們檢視transforms.ToTensor()的解釋，將原本的二維影象格式轉換為PyTorch的基本單位torch.FloatTensor。

Converts a PIL.Image or numpy.ndarray (H x W x C) in the range [0, 255] to a torch.FloatTensor of shape (C x H x W) in the range [0.0, 1.0].

4. 訓練和測試

4.1 訓練資料集

從程式碼中可以清晰的看見“前向傳播”，“反向傳播”，optimizer的求解。

# 訓練過程
for i in range(epoches):
    running_loss = 0.
    running_acc = 0.
    for (img, label) in trainloader:
        # 轉換為Variable型別
        img = Variable(img)
        label = Variable(label)

        optimizer.zero_grad()

        # feedforward
        output = net(img)
        loss = criterian(output, label)
        # backward
        loss.backward()
        optimizer.step()

        # 記錄當前的lost以及batchSize資料對應的分類準確數量
        running_loss += loss.data[0]
        _, predict = torch.max(output, 1)
        correct_num = (predict == label).sum()
        running_acc += correct_num.data[0]

    # 計算並列印訓練的分類準確率
    running_loss /= len(trainset)
    running_acc /= len(trainset)

    print("[%d/%d] Loss: %.5f, Acc: %.2f" %(i+1, epoches, running_loss, 100*running_acc))

在訓練完成之後，有一個處理很重要，需要將當前的網路設定為“測試模式”，然後才可以進行測試集的驗證。

# 將當前模型設定到測試模式
net.eval()

4.2 測試資料集

在測試過程中，只有“前向傳播”過程對輸入的影象進行分類預測。

# 測試過程
testloss = 0.
testacc = 0.
for (img, label) in testloader:
    # 轉換為Variable型別
    img = Variable(img)
    label = Variable(label)

    # feedforward
    output = net(img)
    loss = criterian(output, label)

    # 記錄當前的lost以及累加分類正確的樣本數
    testloss += loss.data[0]
    _, predict = torch.max(output, 1)
    num_correct = (predict == label).sum()
    testacc += num_correct.data[0]

# 計算並列印測試集的分類準確率
testloss /= len(testset)
testacc /= len(testset)
print("Test: Loss: %.5f, Acc: %.2f %%" %(testloss, 100*testacc))

4.3 程式碼執行結果

從下面的結果，可以看到迭代10次的訓練分類準確率和測試分類準確率：

CNN_net (
  (conv): Conv2d(1, 4, kernel_size=(9, 9), stride=(1, 1))
  (pool): AvgPool2d (
  )
  (fc): Linear (400 -> 10)
  (softmax): Softmax ()
)
[1/10] Loss: 1.78497, Acc: 68.79
[2/10] Loss: 1.54269, Acc: 93.10
[3/10] Loss: 1.52096, Acc: 94.93
[4/10] Loss: 1.51040, Acc: 95.82
[5/10] Loss: 1.50393, Acc: 96.45
[6/10] Loss: 1.49967, Acc: 96.77
[7/10] Loss: 1.49655, Acc: 97.02
[8/10] Loss: 1.49401, Acc: 97.24
[9/10] Loss: 1.49192, Acc: 97.45
[10/10] Loss: 1.49050, Acc: 97.56
Test: Loss: 1.48912, Acc: 97.62 %

該工程完整的程式碼我已經放到github上，有興趣的可以去下載試試：

https://github.com/wblgers/stanford_dl_cnn/tree/master/PyTorch

用PyTorch實現一個卷積神經網路進行影象分類

1. 回顧在進入這一篇部落格的內容之前，我們先確保已經成功安裝好PyTorch，可以參考我之前的一篇部落格“Ubuntu12.04下PyTorch詳細安裝記錄”： http://blog.csdn.net/wblgers1234/article/details/729020161接下來，我們用設計一個簡單

用tensorflow實現一個卷積神經網路

學了一段深度學習，最近學了tensorflow，所以想自己去根據教程寫一個簡單的卷積神經網路。 CNN：卷積神經網路的實現一個卷積神經網路的結構一般是由輸入-->卷積-->池化-->卷積-->池化-->............-->全連線-->全連

用cifar10訓練一個卷積神經網路

今天按照教程搭建了一個神經網路，這裡總結一下。搭建神經網路的結構如下所示：我們搭建自己的網路時，一般先確定自己的網路架構，然後計算個層引數，做好這些預備工作之後就可以開始寫程式碼了。 #匯入所需要的包 import cifar10,cifar10_input import tenso

Pytorch實現基於卷積神經網路的面部表情識別(詳細步驟)

文章目錄　　一、專案背景　　二、資料處理　　　　1、標籤與特徵分離　　　　2、資料視覺化　　　　3、訓練集和測試集　　三、模型搭建　　四、模型訓練　　五、完整程式碼一、專案背景資料集cnn_train.csv包含人類面部表情的圖片的label和feature。在這裡，面部表情識別相當於一個分類問題，共有7個

使用卷積神經網路進行圖片分類 1

卷積神經網路原理一、實驗介紹1.1 實驗內容本課程將會先帶你理解卷積神經網路的原理，瞭解卷積神經網路的一些特性。然後動手使用caffe深度學習框架訓練一個卷積神經網路模型，並用訓練好的模型進行圖片分類。學習本課程之前，請先學習課程814 使用python實現深度神經網路以瞭解必要的基本概念，本實驗中涉及到的深

使用卷積神經網路進行圖片分類 3

控制caffe模型的訓練過程一、實驗介紹1.1 實驗內容上次實驗，我們已經構建好了卷積神經網路，我們的模型已經蓄勢待發，準備接受訓練了。為了控制訓練程序，記錄訓練過程中的各種資料，caffe還需要定義另一個solver.prototxt檔案，這次實驗我們就來完成它，並開始激動人心的訓練過程。1.2 實驗知識點

使用卷積神經網路進行圖片分類 2

使用caffe構建卷積神經網路一、實驗介紹1.1 實驗內容上一次實驗我們介紹了卷積神經網路的基本原理，本次實驗我們將學習如何使用深度學習框架caffe構建卷積神經網路，你將看到在深度學習框架上搭建和訓練模型是一件非常簡單快捷的事情（當然，是在你已經理解了基本原理的前提下）。如果上一次實驗中的一些知識點你還理解

使用卷積神經網路進行圖片分類 4

利用訓練好的模型開發圖片分類程式一、實驗介紹1.1 實驗內容在snapshot目錄下已經有我們訓練好的模型的引數，為了利用我們的卷積神經網路模型和這些引數去對影象進行分類，我們這次實驗就來編寫程式碼實現一個圖片分類程式。1.2 實驗知識點caffe python api1.3 實驗環境python 2.7 o

卷積神經網路進行影象處理的工作原理

對人類來說，描述我們眼睛所看到的事物，即“視覺世界”，看起來太微不足道了，以至於我們根本沒有意識到那正是我們時時刻刻在做的事情。在看到某件事物時，不管是汽車、大樹，還是一個人，我們通常都不需要過多的思考就能立刻叫出名字。然而對於一臺計算機來說，區分識別“人類物件”（比如：

TensorFlow實現CNN卷積神經網路對手寫數字集mnist的模型訓練

mnist手寫數字集相當於是TensorFlow應用中的Helloworld。在學習了TensorFlow的卷積神經網路應用之後，今天就分步解析一下其應用過程一、mnist手寫數字資料集 MN

用keras小試CNN卷積神經網路應用於人臉識別

Keras是一個簡約，高度模組化的神經網路庫。採用Python / Theano開發。使用Keras如果你需要一個深度學習庫：可以很容易和快速實現原型（通過總模組化，極簡主義，和可擴充套件性）同時支援卷積網路（vision）和複發性的網路（序列資料）。以及兩者的組合。

keras 實現簡單卷積神經網路和視覺化

from keras.preprocessing.image import ImageDataGenerator from keras.models import Sequential from keras.layers import Conv2D, MaxPooli

【pytorch】CNN卷積神經網路

import os # third-party library import torch import torch.nn as nn import torch.utils.data as Data import torchvision import matp

用Numpy實現一個簡單的神經網路

本示例來自於PyTorch的官網上的一個warm-up小示例, 覺得很有代表性, 所有這裡單獨記錄一下. 對於numpy來說, 它對計算圖, 深度學習, 梯度等等概念幾乎是不知道的, 但是, 如果我們瞭

基於PyTorch的CNN卷積神經網路識別MNIST手寫數字

本篇部落格主要介紹基於PyTorch深度學習框架來實現MNIST經典的手寫數字，運用CNN卷積神經網路。MNIST資料集來自美國國家標準與技術研究所，其中訓練資料有60000張，測試資料有10000張，每張圖片的大小是28*28畫素我們可以基於PyTorch直接下載該資料集。

Tensorflow實戰7：實現AlexNet卷積神經網路及運算時間評測

之前已經介紹過了AlexNet的網路構建了，這次主要不是為了訓練資料，而是為了對每個batch的前饋（Forward）和反饋（backward）的平均耗時進行計算。在設計網路的過程中，分類的結果很重要，但是運算速率也相當重要。尤其是在跟蹤（Tracking）

Tensorflow 實現經典卷積神經網路AlexNet

AlexNet將CNN的基本原理應用到很深很廣的網路中，AlexNet主要使用到的新技術點如下：（1）成功使用ReLU作為CNN的啟用函式，並驗證其效果在較深網路中超過了Sigmoid成功解決了Sigmoid在網路較深時的梯度彌散問題。（2）訓練時使用Dropout隨

利用TensorFlow實現卷積神經網路做文字分類

這篇部落格是翻譯Denny Britz寫的使用卷積神經網路做文字分類並且在Tensorflow上面實現，作者已經授權翻譯，這是原文。在這篇部落格中，我們將實現一個類似於 Kim Yoon 論文中用於句子分類的卷積神經網路模型。論文中的模型在一系列文字分類任務（如情感分類）中獲得了良好的分類效能，併成為新文字

keras 使用卷積神經網路進行序列處理

本文主要介紹使用卷積神經網路進行序列處理。下面是示例程式碼： # coding: utf-8 # In[2]: ''' 使用convnet進行序列處理：在Keras中，通過`Conv1D`層使用1D convnet，它具有與`Conv2D`非常相似的介面。它需要具有shape`

利用卷積神經網路進行手寫數字識別詳解

import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data ‘’‘可分別用這兩個函式建立卷積核(kernel)與偏置(bias)’’’ #返回一個給定形狀的變數，並自動以截斷正態分佈

用PyTorch實現一個卷積神經網路進行影象分類

1. 回顧

2. 設計卷積神經網路

3. 資料準備

4. 訓練和測試

4.1 訓練資料集

4.2 測試資料集

4.3 程式碼執行結果

相關推薦