Pytorch打怪路（三）Pytorch建立自己的資料集1

阿新 • • 發佈：2019-01-02

之前講的例子，程式都是呼叫的datasets方法，下載的torchvision本身就提供的資料，那麼如果想匯入自己的資料應該怎麼辦呢？

本篇就講解一下如何建立自己的資料集。

1.用於分類的資料集

以mnist資料集為例

這裡的mnist資料集並不是torchvision裡面的，而是我自己的以圖片格式儲存的資料集，因為我在測試STN時，希望自己再把這些手寫體做一些形變，

所以就先把MNIST資料集轉化成了jpg圖片格式，然後做了一些形變，當然這不是重點。首先我們看一下我的資料集的情況：

如圖所示，我的圖片資料集確實是jpg圖片

再看我的儲存圖片名和label資訊的文字：

如圖所示，我的mnist.txt文字每一行分為兩部分，第一部分是具體路徑+圖片名.jpg

第二部分就是label資訊，因為前面這部分圖片都是0 ，所以他們的分類的label資訊就是0

要建立你自己的用於分類的資料集，也要包含上述兩個部分，1.圖片資料集，2.文字資訊（這個txt檔案可以用python或者C++輕易建立，再此不詳述）

2.程式碼

主要程式碼

from PIL import Image
import torch

class MyDataset(torch.utils.data.Dataset): #建立自己的類：MyDataset,這個類是繼承的torch.utils.data.Dataset
    def __init__(self,root, datatxt, transform=None, target_transform=None): #初始化一些需要傳入的引數
        fh = open(root + datatxt, 'r') #按照傳入的路徑和txt文字引數，開啟這個文字，並讀取內容
        imgs = []                      #建立一個名為img的空列表，一會兒用來裝東西
        for line in fh:                #按行迴圈txt文字中的內容
            line = line.rstrip()       # 刪除 本行string 字串末尾的指定字元，這個方法的詳細介紹自己查詢python
            words = line.split()   #通過指定分隔符對字串進行切片，預設為所有的空字元，包括空格、換行、製表符等
            imgs.append((words[0],int(words[1]))) #把txt裡的內容讀入imgs列表儲存，具體是words幾要看txt內容而定
                                        # 很顯然，根據我剛才截圖所示txt的內容，words[0]是圖片資訊，words[1]是lable
        self.imgs = imgs
        self.transform = transform
        self.target_transform = target_transform

    def __getitem__(self, index):    #這個方法是必須要有的，用於按照索引讀取每個元素的具體內容
        fn, label = self.imgs[index] #fn是圖片path #fn和label分別獲得imgs[index]也即是剛才每行中word[0]和word[1]的資訊
        img = Image.open(root+fn).convert('RGB') #按照path讀入圖片from PIL import Image # 按照路徑讀取圖片

        if self.transform is not None:
            img = self.transform(img) #是否進行transform
        return img,label  #return很關鍵，return回哪些內容，那麼我們在訓練時迴圈讀取每個batch時，就能獲得哪些內容

    def __len__(self): #這個函式也必須要寫，它返回的是資料集的長度，也就是多少張圖片，要和loader的長度作區分
        return len(self.imgs)

#根據自己定義的那個勒MyDataset來建立資料集！注意是資料集！而不是loader迭代器
train_data=MyDataset(txt=root+'train.txt', transform=transforms.ToTensor())
test_data=MyDataset(txt=root+'test.txt', transform=transforms.ToTensor())

#然後就是呼叫DataLoader和剛剛建立的資料集，來建立dataloader，這裡提一句，loader的長度是有多少個batch，所以和batch_size有關
train_loader = DataLoader(dataset=train_data, batch_size=64, shuffle=True)
test_loader = DataLoader(dataset=test_data, batch_size=64)

再補充一點程式碼，以便更好的理解 getitem這個方法

for batch_index, data, target in test_loader:
        if use_cuda:
            data, target = data.cuda(), target.cuda()
        data, target = Variable(data, volatile=True), Variable(target)

這段程式碼是我從測試的部分中截取出來的，為什麼直接能用for data, target In test_loader這樣的語句呢？

其實這個語句還可以這麼寫：

for batch_index, batch in train_loader

data, target = batch

這樣就好理解了，因為這個迭代器每一次迴圈所得的batch裡面裝的東西，就是我在__getitem__方法最後return回來的，

所以你想在訓練或者測試的時候還得到其他資訊的話，就去增加一些返回值即可，只要是能return出來的，就能在每個batch中讀取到！

###############################################################################

有朋友可能想問，如果我的label資訊不是數字而是影象呢？比如分割任務，它的label就是影象，這樣的資料集的建立，也參考我的下一篇博文：

Pytorch打怪路（三）Pytorch建立自己的資料集2

前面一篇寫建立資料集的博文--- 是介紹的應用於影象分類任務的資料集，即輸入為一個影象和它的類別數字標籤，本篇介紹輸入的標籤label亦為影象的資料集，幷包含一些常用的處理手段。比如做影象語義分割時就會用到這種資料輸入方式。 1、資料集簡介以VOC20

Pytorch打怪路（三）Pytorch建立自己的資料集1

之前講的例子，程式都是呼叫的datasets方法，下載的torchvision本身就提供的資料，那麼如果想匯入自己的資料應該怎麼辦呢？本篇就講解一下如何建立自己的資料集。 1.用於分類的資料集以mnist資料集為例這裡的mnist資料集並不是torchv

Pytorch打怪路（一）pytorch進行CIFAR-10分類（4）訓練

pytorch進行CIFAR-10分類（4）訓練我的系列博文： 1、簡述經過前面的資料載入和網路定義後，就可以開始訓練了，這裡會看到前面遇到的一些東西究竟在後面會有什麼用，所以這一

Tensorflow學習之路（一）：從MNIST資料集開始

MNIST資料集簡單介紹： MNIST 資料集可在 http://yann.lecun.com/exdb/mnist/ 獲取, 它包含了四個部分: Training set images: train-images-idx3-ubyte.gz (9.9 MB,

【Docker（三）】建立自己的映象

建立映象有兩種方式：commit命令方式與Dockerfile方式。但是一般不建議使用commit命令方式。本文將兩種方式均簡單說明一下。commit命令方式： commit是直接在命令列使用，可以在某個映象的容器基礎上進行映象定製。也就是說可以執行某個映象的容

PyTorch學習之路（level2）——自定義資料讀取

在上一篇部落格PyTorch學習之路（level1）——訓練一個影象分類模型中介紹瞭如何用PyTorch訓練一個影象分類模型，建議先看懂那篇部落格後再看這篇部落格。在那份程式碼中，採用torchvision.datasets.ImageFolder這個介面來讀取

pytorch訓練ImageNet筆記（三）

1.訓練過程中有可能會報錯： /storage/st8/public/python3/lib/python3.5/site-packages/PIL/TiffImagePlugin.py:747: UserWarning: Possibly corrupt EXIF data. Expecti

Pytorch學習筆記（三）Pytorch的常用操作記錄

檢視Pytorch網路的各層輸出(feature map)、權重、偏置在使用Pytorch的時候，我總是在想我怎麼看每一層的輸出、權重、偏置，下面記錄我自己的方法，應該是方式多樣，但是我現在的水平沒辦法評價好壞，如果有更好的辦法歡迎留言告知！！！ weigh

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

python學習之路（三）使用socketserver進行ftp斷點續傳

def += __init__ con 不存在不為 local 接收 class 最近學習python到socketserver，本著想試一下水的深淺，采用Python3.6. 目錄結構如下： receive_file和file為下載或上傳文件存放目錄,ftp_clie

android源碼編譯——從此走上Liunx的不歸路（三）

article down 安裝git https ani 同步版本 bsp rep 下載android源碼： 1.安裝git和curl： sudo apt-get install git-core sudo apt-get install git-core curl 2

Spring學習之路（三）bean註解管理AOP操作

spec resource 自定義屬性開始 java framework XML 方法名 jar包在類上面、方法上面、屬性上面添加註解；並用bean來管理；書寫方法：@註解名稱（屬性名稱=值）第一步：導入jar包　　導入spring-aop.jar（spri

Mysql查詢優化從入門到跑路（三）查詢的基本操作

限制 sql 數據單位二維一行用戶 div 答案查詢的基本操作 1.選擇操作對應的是限制條件，操作對象是二維表的行。優化方式：選擇操作下推目的：盡量減少連接操作前的元租數，使得中間臨時關系盡量少（元祖數少，連接得到的元組數就少）好處

JavaScript的進階之路（三）引用類型之Object類型和Array類型

reverse 代碼 -1 替換 fine 設置 sha unshift sum 引用類型 Object類型 function a(num){ if(num>3){ a(--num); } console.log(num);

初識vue.js，我的學習之路（三）

學習定義我想 red spa pos console gpo con vue之自定義指令像v-if、v-show、等這些都是系統指令，比如說我想寫一個v-color的指令，但是系統是沒有這個指令的，如果我們直接這樣寫肯定會報錯，所以我們下面就需要自定義指令

Openstack之路（三）鏡像服務Glance

ria 認證 su - -a 屬性端口開機更改 created Glance的概述 Glance是為虛擬機的創建提供鏡像的服務，我們基於Openstack是構建基本的IaaS平臺對外提供虛擬機，而虛擬機在創建時必須為選擇需要安裝的操作系統，Glance服務就是為該選擇

Python學習之路（三）爬蟲（二）

版權特殊機器人 zhang col 取出 log arch robots 通用爬蟲和聚焦爬蟲根據使用場景，網絡爬蟲可分為通用爬蟲和聚焦爬蟲兩種. 通用爬蟲通用網絡爬蟲是捜索引擎抓取系統（Baidu、Google、Yahoo等）的重要組成部分。主要目

Hive學習之路（三）Hive元數據信息對應MySQL數據庫表

需要 pri from metastore node rom lazy 測試安裝概述 Hive 的元數據信息通常存儲在關系型數據庫中，常用MySQL數據庫作為元數據庫管理。上一篇hive的安裝也是將元數據信息存放在MySQL數據庫中。 Hive的元數據信息在MySQ

unity A尋路（三）A算法

point mali ddr ans 坐標 cap summary gen 自己這裏我就不解釋A*算法如果你還不知道A*算法網上有很多簡單易懂的例子我發幾個我看過的鏈接 http://www.cnblogs.com/lipan/archive/2010/07/01/

Vue 爬坑之路（三）—— 使用 vue-router 跳轉頁面

cli 分類 ace local outer log 適合創建 start 使用 Vue.js 做項目的時候，一個頁面是由多個組件構成的，所以在跳轉頁面的時候，並不適合用傳統的 href，於是 vue-router 應運而生。官方文檔： https://router.v

Pytorch打怪路（三）Pytorch建立自己的資料集1

1.用於分類的資料集

以mnist資料集為例

再看我的儲存圖片名和label資訊的文字：

2.程式碼

主要程式碼

再補充一點程式碼，以便更好的理解 __getitem__這個方法

有朋友可能想問，如果我的label資訊不是數字而是影象呢？比如分割任務，它的label就是影象，這樣的資料集的建立，也參考我的下一篇博文：

相關推薦

再補充一點程式碼，以便更好的理解 getitem這個方法