What is PyTorch?

一個基於Python的科學計算包, 設計目的有兩點:

  • numpy在GPUs實現上的替代品
  • 具有高度靈活性和速度的深度學習研究平臺


Tensors可以理解成是Numpy中的ndarrays, 只不過Tensors支援GPU加速計算.

x = torch.empty(5,3)
print(x) # 輸出 5×3 的未初始化的矩陣, 矩陣元素未初始化, 所以可能是浮點型別的任何職

x = torch.rand(5,3)

x = torch.zeros(5,4,dtype=torch.long)

x =
torch.tensor([5.5, 3]) # 直接用常數來初始化一個Tensor x.size() # Tensor的size




x = torch.rand(5,3)
y = torch.rand(5,3)

z1 = x + y
z2 = torch.add(x,y)

z3 = torch.empty(5,3)

# in-place
y.add_(x) # _ 代表原地加法 也就是 y = y+x

# 可以想numpy陣列一樣使用tensor:
print(x[:,-1]) # Resizing, 利用torch.view來對tensor執行reshape/resize操作 x = torch.randn(4, 4) y = x.view(16) z = x.view(-1,8) # -1代表自動推斷維度 print(x.size(), y.size(), z.size()) # torch.Size([4,4]) torch.Size([16]) torch.Size([2,8]) # item()可以獲得只有一個元素的tensor的值 x = torch.randn(1) print(x.item())

Tensor與Numpy Array


a = torch.ones(5)
print(type(a)) # <class 'torch.Tensor'>
b = a.numpy()
print(type(b)) # <class 'numpy.ndarray'>

注意, 此時a和b共享記憶體, 即a和b指向的都是同一個資料, 也就是說, 如果改變a的值, 那麼b的值也會隨之改變!!

print(a.add_(1)) # tensor([2., 2., 2., 2., 2])
print(b) # [2., 2., 2., 2., 2]


a = np.ones(5)
b = torch.from_numpy(a)

同樣, a和b是共享記憶體的

所有位於CPU上的Tensor (除了CharTensor) 都支援轉換成對應的numpy陣列並且再轉換回來.

CUDA Tensors


if torch.cuda.is_avaiable():
    device = torch.device("cuda") # 建立了一個cuda device物件
    y = torch.ones_like(x, device=device) # 直接從GPU上建立tensor
    x = x.to(device) # 將x移到gpu上, 也可以直接用字串指明: x = x.to("cuda")
    z = x+y
    z.to("cpu", torch.double)

Neural Networks

可以利用torch.nn包來建立神經網路, nn依靠autograd來定義模型並且對其計算微分. 從nn.Module類派生的子類中會包含模型的layers, 子類的成員函式forward(input)會返回模型的執行結果.


  • 定義具有一些可學習引數(權重)的神經網路
  • 在資料集上建立迭代器
  • 將資料送入到網路中處理
  • 計算loss
  • 對引數進行反向求導
  • 更新引數: w e i g h t = w e i g h t l r g r a d i e n t weight = weight - lr*gradient


import torch
import torch.nn as nn
import torch.nn.functional as F

class Net(nn.Module):

    def __init__(self):
        super(Net, self).__init__()
        # 1 input image channel, 6 output channels, 5x5 square convolution
        # kernel
        self.conv1 = nn.Conv2d(1, 6, 5)
        self.conv2 = nn.Conv2d(6, 16, 5)
        # an affine operation: y = Wx + b
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        # Max pooling over a (2, 2) window
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
        # If the size is a square you can only specify a single number
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
        x = x.view(-1, self.num_flat_features(x))
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

    def num_flat_features(self, x):
        size = x.size()[1:]  # all dimensions except the batch dimension
        num_features = 1
        for s in size:
            num_features *= s
        return num_features

net = Net()


  (conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
  (fc1): Linear(in_features=400, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)

當定義好模型的forward()函式以後, backward()函式就會自動利用autograd機制定義, 無需認為定義.


params = net.parameter() # params的型別為 <class 'Iterator'>
print(len(list(params))) # 具有可學習引數的層數
print(list(params)[0].size()) # conv1 的引數

根據網路結構接受的輸入, 想網路中傳輸資料並獲取計算結果

input = torch.randn(1,1,32,32) # 四個維度分別為 (N,C,H,W)
out = net(input) # 自動呼叫forward函式進行計算並返回結果
print(out)  #tensor([[ 0.1246, -0.0511, 0.0235, 0.1766,  -0.0359, -0.0334, 0.1161, 0.0534, 0.0282, -0.0202]], grad_fn=<ThAddmmBackward>)


out.backward(torch.randn(1,10)) # 正如前面所說, 當定義了forward函式以後, 就會自動定義backward函式, 因此可以直接使用

需要注意的是, 整個torch.nn包只支援mini-batches, 所以對於單個樣本, 也需要顯示指明batch size=1, 即input第一個維度的值為1

也可以對單個樣本使用input.unsqueeze(0)來新增一個假的batch dimension.

Loss Function

一個損失函式往往接收的是一對兒資料 (output, target). 然後根據相應規則計算outputtarget之間相差多遠, 如下所示:

output = net(input)
target = torch.randn(10)
target = target.view(1,-1) # 令target和output的shape相同.
criterion = nn.MSELoss()

loss = criterion(output, target)
print(loss) # tensor(1.3638, grad_fn=<MseLossBackward>)

利用.grad_fn屬性, 可以看到關於loss的計算圖:

print(loss.grad_fn) # 返回MseLossBackward物件
#input -> conv2d -> relu -> maxpool2d -> conv2d -> relu -> maxpool2d
#      -> view -> linear -> relu -> linear -> relu -> linear
#      -> MSELoss
#      -> loss

因此, 當呼叫loss.backward()時, 就會計算出所有(requires_grad=True的)引數關於loss的梯度, 並且這些引數都將具有.grad屬性來獲得計算好的梯度


再利用loss.backward()計算梯度之前, 需要先清空已經存在的梯度快取(因為PyTorch是基於動態圖的, 每迭代一次就會留下計算快取, 到一下次迴圈時需要手動清楚快取), 如果不清除的話, 梯度就換累加(注意不是覆蓋).

net.zero_grad()  # 清楚快取
print(net.conv1.bias.grad) # tensor([0., 0., 0., 0., 0., 0.])


print(net.conv1.bias.grad) # tensor([ 0.0181, -0.0048, -0.0229, -0.0138, -0.0088, -0.0107])

Update The Weights


learning_rate = 0.001
for f in net.parameters():

當希望使用一些不同的更新方法如SGD, Adam等時, 可以利用torch.optim包來實現, 如下所示:

import torch.optim as optim

optimizer = optim.SGD(net.parameters(), lr=0.01) # 建立優化器
optimizer.zero_grad() # 清空快取
output = net(input)
loss = criterion(output, target)
loss.backward() # 計算梯度
optimizer.step() # 執行一次更新

Train A Classifier

What About Data?

通常情況下, 在處理資料的時候可以使用標準的Python包(opencv, skimage等), 並將其載入成Numpy陣列的形式, 然後可以很方便的將其轉換成torch.*Tensor資料.

對於影象資料來說, PyTorch提供了torchvision包, 它包含許多常見資料集(Imagenet, CIFAR10, MNIST等等)的載入器, 同時還包含其他一些針對圖片的資料轉換(data transformers)函式. 對於CIFAR10來說, 它的資料集中圖片尺寸為 3×32×32, 總共具有10個不同的類別. 下面就來看一下如何訓練一個分類器將這10個類別進行分類.

Training An Image Classifier


  • 使用torchvision載入並歸一化CIFAR10的訓練資料集和測試資料集.
  • 定義一個卷積神經網路
  • 定義損失函式
  • 在traing data上訓練網路
  • 在test datauh測試網路

Loading and normalizing CIFAR10:


import torch
import torchvision
import torchvision.transforms as transforms

torchvision的輸出型別是 PILImage. 我們需要將其轉換成 Tensors, 並對其進行歸一化, 使其數值處於 [-1, 1] 之間.

# 將多個transforms連結(chained)起來
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

transform = transforms.Compose(
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2)

testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)

classes = ('plane', 'car', 'bird', 'cat',
           'deer', 'dog', 'frog', 'horse', 'ship', 'truck')


import matplotlib.pyplot as plt
import numpy as np

# functions to show an image

def imshow(img):
    img = img / 2 + 0.5     # unnormalize
    npimg = img.numpy()
    plt.imshow(np.transpose(npimg, (1, 2, 0)))

# get some random training images
dataiter = iter(trainloader)
images, labels = dataiter.next()

# show images
# print labels
print(' '.join('%5s' % classes[labels[j]] for j in range(4)))


import torch.nn as nn
import torch.nn.functional as F

class Net(nn.Model):

    def __init__(self):
        super(self, Net).__init__
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2) # 兩個max pooling的引數是一樣的, 所以定義一個就行, 可以重複使用
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16*5*5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, input):
        x = self.pool(F.relu(self.conv1(input)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16*5*5) # 第一個維度為batch size
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        output = self.fc3(x)
        return output

net = Net()

Define a Loss function and optimizer:

損失函式使用交叉熵, 優化器使用帶動量的SGD

import torch.optim as optim
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)


訓練網路的時候, 我們需要簡單的在資料迭代器上進行迴圈操作就可以, 只需要注意不斷想網路中送入新的資料即可.

for epoch in range(2):  # loop over the dataset multiple times

    running_loss = 0.0
    for i, data in enumerate(trainloader, 0):
        # get the inputs
        inputs, labels = data

        # zero the parameter gradients

        # forward + backward + optimize
        outputs = net(inputs)
        loss = criterion(outputs, labels)

        # print statistics
        running_loss += loss.item()
        if i % 2000 == 1999:    # print every 2000 mini-batches
            print('[%d, %5d] loss: %.3f' %
                  (epoch + 1, i + 1, running_loss / 2000))
            running_loss = 0.0

print('Finished Training')

Test the network on the test data

在測試集上獲取模型的準確率, 只需要利用outputs = net(images)即可獲得預測的類別概率, 取最大者為預測的類別結果.

correct = 0
total = 0
with torch.no_grad():
    for data in testloader:
        images, labels = data
        outputs = net(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

print('Accuracy of the network on the 10000 test images: %d %%' % (
    100 * correct / total))


class_correct = list(0. for i in range(10))
class_total = list(0. for i in range(10))
with torch.no_grad():
    for data in testloader:
        images, labels = data
        outputs = net(images)
        _, predicted = torch.max(outputs, 1)
        c = (predicted == labels).squeeze()
        for i in range(4):
            label = labels[i]
            class_correct[label] += c[i].item()
            class_total[label] += 1

for i in range(10):
    print('Accuracy of %5s : %2d %%' % (
        classes[i], 100 * class_correct[i] / class_total[i


前面介紹了PyTorch的一些基本用法,從這一節開始介紹Pytorch在深度學習中的應用。在開始介紹之前,首先熟悉一下常用的概念和層。 class torch.nn.Module 是所有神經網路模組的基類,自定義的網路模組必須繼承此模組 必須重寫forwa