PyTorch學習系列(一)——載入資料並生成batch資料

阿新 • • 發佈：2019-01-03

開始學習PyTorch，在此記錄學習過程。準備按順序寫以下系列：

讀取資料生成並構建Dataset子類

假設現在已經實現從資料檔案中讀取輸入images和標記labels（列表），那麼怎麼根據images和labels定義自己的資料集類？答案是作為torch.utils.data.Dataset的子類。

torchvision.datasets中有幾個已經定義好的資料集類，這些類都是torch.utils.data.Dataset抽象類的子類：

在定義torch.utils.data.Dataset的子類時，必須過載的兩個函式是__len__和__getitem__。__len__返回資料集的大小，__getitem__實現資料集的下標索引，返回對應的影象和標記（不一定非得返回影象和標記，返回元組的長度可以是任意長，這由網路需要的資料決定）。
在建立DataLoader時會判斷__getitem__返回值的資料型別，然後用不同的if/else分支把資料轉換成tensor，所以，_getitem_返回值的資料型別可選擇範圍很多，一種可以選擇的資料型別是：影象為numpy.array，標記為int資料型別。
這裡寫圖片描述

示例：

from __future__ import print_function
import torch.utils.data as data
import torch

class MyDataset(data.Dataset):
    def __init__(self, images, labels):
        self.images = images
        self.labels = labels

    def __getitem__(self, index):#返回的是tensor
        img, target = self.images[index], self.labels[index]
        return 
 img, target

    def __len__(self):
        return len(self.images)

dataset = MyDataset(images, labels)

生成batch資料

現在有了由資料檔案生成的結構資料MyDataset，那麼怎麼在訓練時提供batch資料呢？PyTorch提供了生成batch資料的類。

class torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, num_workers=0, collate_fn=<function default_collate>, pin_memory=False, drop_last=False)

引數：
dataset：Dataset型別，從其中載入資料
batch_size：int，可選。每個batch載入多少樣本
shuffle：bool，可選。為True時表示每個epoch都對資料進行洗牌
sampler：Sampler，可選。從資料集中取樣樣本的方法。
num_workers：int，可選。載入資料時使用多少子程序。預設值為0，表示在主程序中載入資料。
collate_fn：callable，可選。
pin_memory：bool，可選
drop_last：bool，可選。True表示如果最後剩下不完全的batch,丟棄。False表示不丟棄。

示例：

kwargs = {'num_workers': 1, 'pin_memory': True} if args.cuda else {}
train_loader = torch.utils.data.DataLoader(
    MyDataset(images, labels), batch_size=args.batch_size, shuffle=True, **kwargs)

其他用法：
len(train_loader) ：返回的是len(dataset)/batch_size

PyTorch學習系列(一)——載入資料並生成batch資料

讀取資料生成並構建Dataset子類

生成batch資料

PyTorch學習系列(一)——載入資料並生成batch資料

cesium學習系列一-載入三維模型

pytorch使用（一）處理並載入自己的資料

JVM深度學習系列之類載入問題分析(一)

PyTorch學習系列(十五)——如何載入預訓練模型？

Windows下基於Caffe的SSD網路學習（一）配置加生成自己的資料集

hive 學習系列一（資料型別的定義）

【C#學習筆記】載入圖片並居中

[jQuery學習系列一]1-選擇器與DOM對象

Elasticsearch學習系列一 Linux服務部署--Java（一）

Elasticsearch學習系列一

webservice 教程學習系列(一)——schema約束

Pytorch 學習系列彙總

pytorch學習（一）：torch.nn.utils.rnn.pack_padded_sequence()的用法

nodejs學習（一）--express+ejs生成專案

Identity Server4學習系列一

[Jexus系列] 一、安裝並執行 Jexus

Identity Server4學習系列三 Identity Server4學習系列一 Identity Server4學習系列二之令牌(Token)的概念

頁面一載入就先請求後臺資料(ajax)

pytorch學習筆記之載入預訓練模型

PyTorch學習系列(一)——載入資料並生成batch資料

讀取資料生成並構建Dataset子類

生成batch資料

相關推薦