【Detection】物體識別-製作PASCAL VOC資料集

阿新 • • 發佈：2020-02-16

程式碼下載：github

PASCAL VOC資料集

PASCAL VOC為影象識別和分類提供了一整套標準化的優秀的資料集，從2005年到2012年每年都會舉行一場影象識別challenge
預設為20類物體

1 資料集結構

①JPEGImages

JPEGImages資料夾中包含了PASCAL VOC所提供的所有的圖片資訊，包括了訓練圖片和測試圖片。

ref：PASCAL VOC資料集分析

②Annotations

Annotations資料夾中存放的是xml格式的標籤檔案，每一個xml檔案都對應於JPEGImages資料夾中的一張圖片。

xml檔案的具體格式如下：（對於2007_000392.jpg）


<annotation>
    <folder>VOC2012</folder>                           
    <filename>2007_000392.jpg</filename>                               //檔名
    <source>                                                           //影象來源（不重要）
        <database>The VOC2007 Database</database>
        <annotation>PASCAL VOC2007</annotation>
        <image>flickr</image>
    </source>
    <size>                                             //影象尺寸（長寬以及通道數）                      
        <width>500</width>
        <height>332</height>
        <depth>3</depth>
    </size>
    <segmented>1</segmented>                                   //是否用於分割（在影象物體識別中01無所謂）
    <object>                                                           //檢測到的物體
        <name>horse</name>                                         //物體類別
        <pose>Right</pose>                                         //拍攝角度
        <truncated>0</truncated>                                   //是否被截斷（0表示完整）
        <difficult>0</difficult>                                   //目標是否難以識別（0表示容易識別）
        <bndbox>                                                   //bounding-box（包含左下角和右上角xy座標）
            <xmin>100</xmin>
            <ymin>96</ymin>
            <xmax>355</xmax>
            <ymax>324</ymax>
        </bndbox>
    </object>
    <object>                                                           //檢測到多個物體
        <name>person</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>                    //檢測矩形框座標
            <xmin>198</xmin>
            <ymin>58</ymin>
            <xmax>286</xmax>
            <ymax>197</ymax>
        </bndbox>
    </object>
</annotation>

對應的圖片為：

③ImageSets

ImageSets存放的是每一種型別的challenge對應的影象資料。
在ImageSets下有四個資料夾：

其中Action下存放的是人的動作（例如running、jumping等等，這也是VOC challenge的一部分）
Layout下存放的是具有人體部位的資料（人的head、hand、feet等等，這也是VOC challenge的一部分）
Main下存放的是影象物體識別的資料，總共分為20類。
Segmentation下存放的是可用於分割的資料。

在這裡主要考察Main資料夾。

Main資料夾下包含了20個分類的***_train.txt、***_val.txt和***_trainval.txt。

這些txt中的內容都差不多如下：

前面的表示影象的name，後面的1代表正樣本，-1代表負樣本。
_train中存放的是訓練使用的資料，每一個class的train資料都有5717個。
_val中存放的是驗證結果使用的資料，每一個class的val資料都有5823個。
_trainval將上面兩個進行了合併，每一個class有11540個。
需要保證的是train和val兩者沒有交集，也就是訓練資料和驗證資料不能有重複，在選取訓練資料的時候，也應該是隨機產生的。

Ref: PASCAL VOC資料集分析

2 生成/建立 PASCAL VOC 資料集

2.1 利用現有資料集 - Openimages

900萬張標註影象，谷歌釋出Open Images最新V3版

該資料集包含一個訓練集（9011219張影象）、一個驗證集（41620張影象）和一個測試集（125436張影象）。V1 版本里的驗證集在 V2 版本中被劃分為驗證集和測試集，這樣做是為了更好地進行評估。Open Images 中的所有影象都標註有影象級標籤和邊界框

600餘物體類別線上瀏覽
分類標籤示例：

2.1.1 下載openimages

到官網下載的時候要一次性下載所有的部分，不僅檔案很大，而且下載的也不大快，更重要的是自己訓練要用到的類別並不多。

我採用的是工具箱的方法（https://github.com/EscVM/OIDv4_ToolKit），實際操作起來也挺順利的。
Open Images V4 下載自己需要的特定類別

Step1：Install the required packages
pip install -r requirements.txt

Step2：
python main.py downloader --classes ./classes.txt --type_csv all --limit 3000

用法：main.py [-h] [--Dataset/path/to/OID/csv/] [-y]
               [ - 類列表[類列表...]]
               [--type_csv'train'或'validation'或'test'或'all']
               [--sub 子人驗證影象的子集或機器生成的h或m）]
               [--image_IsOccluded 1或0] [ -  image_IsTruncated 1或0]
               [--image_IsGroupOf 1或0] [ -  image_IsDepiction 1或0]
               [--image_IsInside 1或0] [--multiclasses 0（預設值或1）
               [--n_threads [預設20]] [--noLabels]
               [--limit integer number]
               <command>'downloader'，'visualizer'或'ill_downloader'。
Open Image Dataset Downloader
開啟影象資料集下載程式
位置引數：
  <command>'downloader'，'visualizer'或'ill_downloader'。
                        'downloader'，'visualizer'或'ill_downloader'。
可選引數：
  -h， --help      顯示此幫助訊息並退出
  --Dataset /path/to/OID/csv/
                        OID資料集資料夾的目錄
  -y， --yes 是和是可以下載丟失的檔案
   - 類列表[類列表...]
                        所需類的“字串”序列
  --type_csv'train'或'validation'或'test'或'all'
                        從什麼csv搜尋影象
  --sub  人工驗證影象或機器生成的子集（h或m）
                        從人類驗證的資料集或從
                        機器生成一個。
  --image_IsOccluded 1或0
                        影象的可選特徵。表示
                        物件被影象中的另一個物件遮擋。
  --image_IsTruncated 1或0
                        影象的可選特徵。表示
                        物件超出影象的邊界。
  --image_IsGroupOf 1或0
                        影象的可選特徵。表示
                        盒子跨越一組物體（分鐘5）。
  --image_IsDepiction 1或0
                        影象的可選特徵。表示
                        物件是一個描述。
  --image_IsInside 1或0
                        影象的可選特徵。表示a
                        從物件內部拍攝的照片。
  --multiclasses 0（預設值）或1
                        分別（0）或一起下載不同的類
                        （1）
  --n_threads [預設20]
                        要使用的執行緒數
  --noLabels            沒有標籤創作
  --limit integer number
                        要下載的影象數量的可選限制

下載完成後得到 OID Folder

2.1.2 csv生成.xml(以Google openimage為例）

程式碼下載：github

Step1:Get VOC.xml - csv2voc.py

Openimage.csv to Anotation/XXX.xml

Input : OPEN_IMAGES_DIR = folder of csv file

eg. where the validation-annotations-bbox.csv is.
Output = Anotation/XXX.xml +
test.txt、train.txt、val.txt、trainval.txt

生成後得到VOCify Folder

Note：此時無需直接操作圖片

test.txt、train.txt、val.txt、trainval.txt 後期訓練時可再次生成，程式碼如下

# -*- coding：utf-8 -*- 
# -*- python3.5 
import os 
import random 
 
trainval_percent = 0.7 #可以自己設定
train_percent = 0.8    #可以自己設定
 
xmlfilepath = 'Annotations' #地址填自己的
txtsavepath = 'ImageSets/Main' 
total_xml = os.listdir(xmlfilepath) 
 
num = len(total_xml) 
list = range(num) 
tv = int(num*trainval_percent) 
tr = int(tv*train_percent) 
trainval = random.sample(list,tv) 
train = random.sample(trainval,tr) 
 
ftrainval = open(txtsavepath+'/trainval.txt', 'w') 
ftest = open(txtsavepath+'/test.txt', 'w') 
ftrain = open(txtsavepath+'/train.txt', 'w') 
fval = open(txtsavepath+'/val.txt', 'w') 
 
for i in list: 
  name = total_xml[i][:-4]+'\n' 
  if i in trainval: 
    ftrainval.write(name) 
    if i in train: 
      ftrain.write(name) 
    else: fval.write(name) 
  else: 
    ftest.write(name) 
 
ftrainval.close() 
ftrain.close() 
fval.close() 
ftest .close() 
print('Well finshed')

Step2:Save images to JPEGImages folder - By hand
cp -r Dataset/images_file* VOCify/JPEGImages
Source : Dataset/images_file
Destination : VOCify/JPEGImages

Step3:Set same name - my_same_name.py

Set Anotation/XXX.xml as JPEGImages/XXX.jpg
Make XXX the same

ref: 製作VOC資料集

2.2 手工標註

推薦：使用labelImg工具給圖片上標籤，並生成.xml文

人臉識別，解析MS-Celeb-1M人臉資料集及FaceImageCroppedWithAlignment.tsv檔案提取【人臉識別】解析MS-Celeb-1M人臉資料集及FaceImageCroppedWithAlignment.tsv檔案提取

原【人臉識別】解析MS-Celeb-1M人臉資料集及FaceImageCroppedWithAlignment.tsv檔案提取 2018年09月19日 13:11:54

【Detection】物體識別-製作PASCAL VOC資料集

PASCAL VOC資料集

1 資料集結構

2 生成/建立 PASCAL VOC 資料集

2.1 利用現有資料集 - Openimages

2.1.1 下載openimages

2.1.2 csv生成.xml(以Google openimage為例）

2.2 手工標註

【Detection】物體識別-製作PASCAL VOC資料集

【計算機視覺】PASCAL VOC資料集分析

【NLP】【八】基於keras與imdb影評資料集做情感分類

Pascal Voc資料集詳細介紹

【keras】解決 example 案例中 MNIST 資料集下載不了的問題

計算機視覺標準資料集整理—PASCAL VOC資料集

PASCAL VOC 資料集

Pascal Voc資料集詳細分析

PASCAL VOC資料集分析

PASCAL VOC資料集分析（分類部分）

PASCAL VOC資料集The PASCAL Object Recognition Database Collection

PASCAL VOC資料集分析（檢測部分）

【4Opencv】如何識別出輪廓準確的長和寬

【opencv】目標識別——HSV顏色識別

【Java】：Java製作九九乘法表

【原始碼】人臉識別DEMO version 1.1.0.0

製作PASCAL VOC格式的檢測資料集，生成trainval.txt, train.txt, val.txt, test.txt檔案

製作PASCAL VOC格式的分割資料集，生成trainval.txt, train.txt, val.txt檔案

【Cesium】物體顯示

人臉識別，解析MS-Celeb-1M人臉資料集及FaceImageCroppedWithAlignment.tsv檔案提取【人臉識別】解析MS-Celeb-1M人臉資料集及FaceImageCroppedWithAlignment.tsv檔案提取

【Detection】物體識別-製作PASCAL VOC資料集

PASCAL VOC資料集

1 資料集結構

2 生成/建立 PASCAL VOC 資料集

2.1 利用現有資料集 - Openimages

2.1.1 下載openimages

2.1.2 csv生成.xml(以Google openimage為例）

2.2 手工標註

相關推薦