python 將yaml標籤檔案轉化為xml格式的標籤檔案

阿新 • • 發佈：2019-01-03

最近在跑SSD和Faster R-CNN深度學習程式碼，下載了一些資料集，但是這些資料集標籤檔案不是xml格式檔案，而是yaml檔案，雖然網上有線上轉化的工具，但是這種做法對我來說顯然是很低效率的。為了提高效率，自己寫了相關的程式碼。現在分享給大家。

感謝Bosch Small Traffic Lights Dataset 提供的部分程式碼。

以下是label_images.py程式：

#!/usr/bin/env python
 """
Example usage:
    python label_images.py input.yaml [output_folder]
"""
import sys
import os
import cv2
from read_label_file import get_all_labels
from WriteFileXml import writeInfoToXml

def ir(some_value):
    """Int-round function for short array indexing """
    return int(round(some_value))

def show_label_images(input_yaml, output_folder=None):
    images = get_all_labels(input_yaml)

    if output_folder is not None:
        if not os.path.exists(output_folder):
            os.makedirs(output_folder)

    for i, image_dict in enumerate(images):
        #print image_dict['boxes']
        image = cv2.imread(image_dict['path'])
        img_size=image.shape

        if image is None:
            raise IOError('Could not open image path', image_dict['path'])

        dirname,image_name=os.path.split(image_dict['path'])    #get name of image
        XmlName = image_name.split('.',1)[0] + '.xml' #get name of label
        writeInfoToXml(XmlName,image_name,image_dict,img_size,output_folder)  #covert yaml to xml


if __name__ == '__main__':
    if len(sys.argv) < 2:
        print(__doc__)
        sys.exit(-1)
    label_file = sys.argv[1]
    output_folder = None if len(sys.argv) < 3 else sys.argv[2]#output_folder is path to store xml
    show_label_images(label_file, output_folder)

而下面是WriteFileXml.py程式，該程式是生成xml格式的標籤檔案，仿照pascal voc中的label的格式。

# -*- coding: utf-8 -*-
# @Time    : 18-5-23 上午6:58
# @Author  : lei liu
# @Blog    ：https://blog.csdn.net/T1243_3
# coding=utf-8

from xml.dom.minidom import Document
import os

    # 將self.orderDict中的資訊寫入本地xml檔案，引數filename是xml檔名
def writeInfoToXml(XmlName,imgname,image_dict,img_size,output_folder):
    # 建立dom文件
    doc = Document()

    orderlist = doc.createElement('annotation') # 建立根節點
    doc.appendChild(orderlist)      # 根節點插入dom樹

    folder = doc.createElement('folder')
    folder_text = doc.createTextNode('VOC2007')
    folder.appendChild(folder_text)
    orderlist.appendChild(folder)


    filename = doc.createElement('filename')   #imgname
    filename_text = doc.createTextNode(imgname)
    filename.appendChild(filename_text)
    orderlist.appendChild(filename)

    """
    在根節點annotation下建立子節點size，在size下建立width,height和depth節點
    """
    size = doc.createElement('size')  # imgsize 根size,子：width,height,depth
    orderlist.appendChild(size)

    width = doc.createElement('width') #imgsize->width
    width_text = doc.createTextNode(str(img_size[1]))
    width.appendChild(width_text)
    size.appendChild(width)

    height = doc.createElement('height')#imgsize->height
    height_text = doc.createTextNode(str(img_size[0]))
    height.appendChild(height_text)
    size.appendChild(height)

    depth = doc.createElement('depth')  # imgsize->depth
    depth_text = doc.createTextNode(str(img_size[2]))
    depth.appendChild(depth_text)
    size.appendChild(depth)


    for i in range(len(image_dict['boxes'])):
        object = doc.createElement('object')
        orderlist.appendChild(object)

        name = doc.createElement('name')  # object->name
        name_text = doc.createTextNode(str(image_dict['boxes'][i]['label']))
        name.appendChild(name_text)
        object.appendChild(name)

        bndbox = doc.createElement('bndbox')  # object->bndbox
        object.appendChild(bndbox)


        xmin = doc.createElement('xmin')  # labelsize->width
        xmin_text = doc.createTextNode(str(image_dict['boxes'][i]['x_min']))
        xmin.appendChild(xmin_text)
        bndbox.appendChild(xmin)

        ymin = doc.createElement('ymin')  # labelsize->height
        ymin_text = doc.createTextNode(str(image_dict['boxes'][i]['y_min']))
        ymin.appendChild(ymin_text)
        bndbox.appendChild(ymin)

        xmax = doc.createElement('xmax')  # labelsize->width
        xmax_text = doc.createTextNode(str(image_dict['boxes'][i]['x_max']))
        xmax.appendChild(xmax_text)
        bndbox.appendChild(xmax)

        ymax = doc.createElement('ymax')  # labelsize->width
        ymax_text = doc.createTextNode(str(image_dict['boxes'][i]['y_max']))
        ymax.appendChild(ymax_text)
        bndbox.appendChild(ymax)

    # 將dom物件寫入本地xml檔案
    with open(os.path.join(output_folder,XmlName), 'w') as f:
        f.write(doc.toprettyxml(indent='\t', encoding='utf-8'))

if __name__ == '__main__':
    image_dict=[1]
    writeInfoToXml('/home/ubuntu/bstld-master/test1.xml','0001.png',image_dict)

最後生成的標籤檔案如下面xml檔案所示：

<?xml version="1.0" encoding="utf-8"?>
<annotation>
	<folder>VOC2007</folder>
	<filename>26420.png</filename>
	<size>
		<width>1280</width>
		<height>720</height>
		<depth>3</depth>
	</size>
	<object>
		<name>Green</name>
		<bndbox>
			<xmin>940.25</xmin>
			<ymin>242.625</ymin>
			<xmax>951.0</xmax>
			<ymax>277.25</ymax>
		</bndbox>
	</object>
	<object>
		<name>Green</name>
		<bndbox>
			<xmin>95.0</xmin>
			<ymin>250.0</ymin>
			<xmax>104.5</xmax>
			<ymax>285.625</ymax>
		</bndbox>
	</object>
</annotation>

python 將yaml標籤檔案轉化為xml格式的標籤檔案

最近在跑SSD和Faster R-CNN深度學習程式碼，下載了一些資料集，但是這些資料集標籤檔案不是xml格式檔案，而是yaml檔案，雖然網上有線上轉化的工具，但是這種做法對我來說顯然是很低效率的。為了提高效率，自己寫了相關的程式碼。現在分享給大家。感謝Bosch Small

reads count檔案轉化為fasta格式檔案(redundant reads)

從NCBI下載的測序資料很多是去過接頭的，並且整理成readscount格式，即每行第一列為reads，第二列為reads數，而我們需要把它整理成fasta格式，並且每個read都整理為一條序列原始檔案： cat GSM3124755_WTB_PARE.csv | h

reads count檔案轉化為fasta格式檔案(uniq reads)

在NCBI下載測序資料時有很多是以reads序列 + count數的格式，這種是作者去完接頭並過濾掉低質量reads後的結果。下面實現將reads count格式轉化為fasta格式 cat reads_count.txt AAACCCGGGTTT 3 ACAAGATTAG

Gson基本使用 -- 解析json，jsonArray。將任意java物件轉化為json格式

Gson是一款幫助解析Json，JsonArray和將Java物件轉換為Json格式的框架。一、將json解析為java物件先看效果圖程式碼實現1.在app模組的build.gradle的dependencies中引入Gsonimplementation 'com.g

caffe中將jpg資料轉化為lmdb格式的檔案

Linux下caffe中如何將自己的jpg格式的圖片轉化為lmdb格式的檔案本文利用caffe自帶的create_imagenet.sh檔案進行轉化，具體步驟如下。 1 資料準備將圖片資料和標註分別放好訓練資料放在train資料夾裡，測試資料放在v

java檔案轉化為class位元組碼檔案

一.基本原理二.實現過程 1.在桌面上編寫.java檔案 public class calculator { public static void main(String[] args) { int num1 = 7; int num2 = 5;

bam（sam）格式檔案轉化為fasta格式

bam2fasta的轉變方式： samtools view input.bam | awk '{OFS="\t"; print ">"$1"\n"$10}' - > output.fasta sam2fasta的轉變方式 cat *.sam | awk '{pri

如何將xml檔案轉化為Bitmap

一、獲取windownwidth int windowWidth = MyApplication.getWindowWidth(); 二、將佈局檔案轉化成Bitmap public Bitmap getScrollViewBitmap(RelativeLayout relativeLay

Python：將大型CSV檔案轉化為DataFrame

之前因為比賽一直在玩DataFrame，處理一些小型資料感覺很是方便。但是今天遇到了一個3.32G大的CSV檔案感覺甚是無力，總是報記憶體錯誤。上網查找了一些方法感覺都很有啟發啊，所以自己整合了一下。並記錄下來，以防記性不好的我忘記。方法一：with open('C:

資料集製作之xml檔案轉化為csv

# -*- coding: utf-8 -*- """ 將資料夾內所有XML檔案的資訊記錄到CSV檔案中 """ import os import glob import pandas as pd import xml.etree.ElementTree as ET os.chdir('

batch指令碼將proto檔案轉化為js

要進入proto的資料夾開啟cmd 輸入dir *.proto > aj.text 開啟aj.text 刪除多餘的空行和沒有的行（不含檔名的行）新建一個demo.bat @Echo Off Setlocal Enabledelayedexpansi

把標註TXT檔案轉化為VOC的xml檔案

我自己的資料集格式為filename lable xmin ymin xmax ymax1 通過別的模板轉換VOC資料集的xml格式為：<annotation>

python實現CSV特徵檔案轉化為libsvm特徵檔案輸入spark中進行機器學習

今天早早地下班，閒來無事就繼續鼓搗spark了，spark計算能力很強之外還有一個很強大的功能就是機器學習，藉助於spark平臺的高效能以及高計算能力，機器學習演算法也被廣泛地開發出來，今天在實際使用spark中提供的機器學習演算法的時候遇到一個問題就是：

python 用逗號分隔欄位但被三個引號括起來的欄位不被逗號分隔的檔案轉化為dataframe

請教一個問題： 0,"""哎，想當年來佘山的時候，類來,空了。""",-2,-2,-2,0,-2,-2,-2,1,-2,-2,-2,-2,-2,-2,-2,0,-2,-2,1,0 這種資料怎麼用pandas讀到dataframe中，"""括起來的是一個欄位，dataframe

利用python實現 CAD STEP格式轉化為STL格式--update 對整個資料夾下的所有檔案進行轉換格式

update # 匯入FreeCAD 路徑為FreeCAD安裝路徑,bin檔案裡有個檔案叫 FreeCad.pyd 這是關鍵 import sys sys.path.append('C:\\Software\\FreeCAD 0.17\\bin') import FreeC

教程：將WPF控制元件轉化為.dll檔案實現控制元件打包重用

最近公司在進行顯控軟體的升級，需要將現有程式的winform介面升級為WPF。由於是剛剛接觸C#和WPF，在開發過程中，自己摸索了一下自定義WPF控制元件的實現方法，在此做個總結。先通過類庫編譯W

將返回的XML資料轉化為JSON格式

程式碼如下： /** * 轉換xml為物件形式 * @return {Object} * @param {XMLHttpRequest} elXML */ $.fn.toObject = function (){ if (this==null) return

java程式碼實現將無表頭.txt文字檔案轉化為weka能識別.arff檔案

首先，我們要有一個.txt檔案，每一行中的元素個數是相同的（因為每一行中的每一個元素就代表了一種型別的屬性值），文尾已奉上，讀者自行下載。有的就不用下載了，然後，，，程式碼如下，具體的就不細講了

java將html的圖文轉化為PDF檔案輸出

首先在我的專案的resource目錄下建立相應的目錄，如圖其中file用來存放一個logo以及生成的PDF檔案，font資料夾用來存放font 字型然後在專案的 pom.xml中新增引用<dependency> <groupId>org.xht

Python使用ffmpy將amr格式的音訊轉化為mp3格式

最近做了一個專案，將從微信下載的音訊檔案（預設為.amr格式）轉化為mp3格式（否則前端播放將會遇到困難）上傳到雲端。經過一番研究，最終決定採用Python的ffmpy包。安裝只需執行pip install ffmpy注意，ffmpy只是命令列工具FFmpeg的一個包裝，若要

python 將yaml標籤檔案轉化為xml格式的標籤檔案

相關推薦