【學習筆記】使用python批量讀取並修改xml檔案（2）

阿新 • • 發佈：2019-01-02

在大老闆的安排下最近在某公司實習，實習期間要求實現一個影象識別模組的封裝。無奈基礎太薄弱，只能將任務細分，單獨學習來實現。以此為背景……

這一篇記錄一些在實際使用中踩到的坑。在實際使用中，我在A資料夾下對圖片進行了標註，隨後將圖片移動到B資料夾下。那麼相應的，標註後的xml檔案中，<path>標籤的值就應該修改。

最初的思路是，我遍歷了xml檔案，那麼我只需要將‘新地址’+xml檔案寫入到新的<path>中即可。

paths[i].firstChild.data='/home/kanghao/SSD-Tensorflow/yibiao512/JPEGImages/'+xmlFile

即這一句程式碼，使用後發現自己腦子抽了……<path>中的標籤值為：

<path>/home/kanghao/learning_something/about_xml/yibiao512/img/a0000000.jpg</path>

重點是後面跟隨的是圖片的副檔名。

於是想到是否可以再次遍歷圖片資料夾，獲取圖片資訊之後再與新地址相連？在實際操作中不知如何同時遍歷兩個資料夾……_(°:з」∠)_禿頭

於是採取小黃鴨debug方法，在與小夥伴講解訴求的過程中猛然發現，我要獲取的不就是<filename>標籤的值嗎？獲取了這個值之後，新增的新地址後面就好了呀。於是按照這個思路，完整程式碼如下：

#coding:utf-8
### V1.0版
### 針對xml檔案，要修改的地方是<folder><path><width><height><bndbox>
### 程式瑕疵，在計算bud box時使用float格式，openCV畫框函式為int格式
### 因此會產生誤差

import os
import os.path
import xml.dom.minidom

#path="../xml/"
path='/home/kanghao/SSD-Tensorflow/yibiao512/Annotations/'
files=os.listdir(path) #得到資料夾下所有檔名稱
for xmlFile in files: #遍歷資料夾
	
	if not os.path.isdir(xmlFile): #判斷是否是資料夾，不是資料夾才打開
		print xmlFile
			
		#xml讀取操作		
		#將獲取到的xml檔名送入到dom解析
		#錯誤程式碼：dom=xml.dom.minidom.parse(xmlFile)
		dom=xml.dom.minidom.parse(os.path.join(path,xmlFile))
		root=dom.documentElement
		
		###獲取標籤對xmin/ymin之間的值
		# ~ folder=root.getElementsByTagName('folder')
		paths=root.getElementsByTagName('path')
		filenames=root.getElementsByTagName('filename')
		# ~ xmin=root.getElementsByTagName('xmin')
		# ~ ymin=root.getElementsByTagName('ymin')

		# ~ #修改相應標籤的值
		# ~ # 修改<folder>
		# ~ for i in range(len(folder)):
			# ~ print folder[i].firstChild.data
			# ~ folder[i].firstChild.data='xml'
			# ~ print folder[i].firstChild.data
		for i in range(len(filenames)):
			fn = filenames[i].firstChild.data
		
		###############################################################################################################		
		### 如何修改path？每個xml檔案對應不同名字的圖片？？？                                                                
		### 解決方式如下，測試成功×----------->開始的思路有問題，                                                            
		###paths[i].firstChild.data='/home/kanghao/SSD-Tensorflow/yibiao512/JPEGImages/'+fn語句中，fn使用的是xmlFiles    
		###那麼修改後的path中字尾加的是xml檔案，不是對應的jpg檔案。 思路2————————>直接讀取filename標籤中的值，新增到地址後即可     
		###############################################################################################################   
		# 修改<path>
		for i in range(len(paths)):
			print paths[i].firstChild.data
			paths[i].firstChild.data='/home/kanghao/SSD-Tensorflow/yibiao512/JPEGImages/'+fn
			print paths[i].firstChild.data
		# ~ # 修改<xmin>	
		# ~ for k in range(len(xmin)):
			# ~ print xmin[k].firstChild.data
			# ~ xia = unicode.encode(xmin[k].firstChild.data)
			# ~ xmin[k].firstChild.data=float(xia)/1.25
			# ~ print xmin[k].firstChild.data
		# ~ # 修改<ymin>	
		# ~ for j in range(len(ymin)):
			# ~ print ymin[j].firstChild.data
			# ~ yia = unicode.encode(ymin[j].firstChild.data)
			# ~ ymin[j].firstChild.data=float(yia)/1.0666667
			# ~ print ymin[j].firstChild.data

		#儲存修改到xml檔案中
		with open(os.path.join(path,xmlFile),'w') as fh:
			dom.writexml(fh)
		# ~ with open(os.path.join(path2,jpgFile),'w') as fh:
			# ~ dom.writexml(fh)
			print('恭喜，寫入xmin/ymin成功！')

那一大坨註釋，就是為了方便自己理解……_(°:з」∠)_禿頭again。

對了，#coding：utf-8要寫在開頭，編譯器才能以utf-8的各種編譯。

one more thing……

我想用openCV的cv2.rectangle()函式來畫框，驗證我按比例變化是否準確，相關程式碼如下：

#coding:utf-8
import os
import cv2
import numpy as np
import xml.dom.minidom
import pandas as pd
from PIL import Image, ImageDraw, ImageFont

input_file="/home/kanghao/learning_something/about_xml/xml/"
dirs_name=os.listdir("/home/kanghao/learning_something/about_xml/jpg/") #圖片地址


for img in dirs_name:
	
	im=cv2.imread("/home/kanghao/learning_something/about_xml/jpg/"+img) #讀取圖片
	dom=xml.dom.minidom.parse(input_file+img[:-4]+".xml") # 讀取圖片對應的label資訊 xml檔案
	root=dom.documentElement
	
	objs=root.getElementsByTagName("object")
	
	name=[]
	xmin=[]
	ymin=[]
	xmax=[]
	ymax=[] 
	
	for obj in objs:
		
		name1=obj.getElementsByTagName('name')
		n=name1[0].firstChild.data
		xmin1=obj.getElementsByTagName('xmin')
		xi=xmin1[0].firstChild.data
		ymin1=obj.getElementsByTagName('ymin')
		yi=ymin1[0].firstChild.data
		xmax1=obj.getElementsByTagName('xmax')
		xa=xmax1[0].firstChild.data
		ymax1=obj.getElementsByTagName('ymax')
		ya=ymax1[0].firstChild.data
		
		xmin.append(float(xi.strip()))
		print(xmin)
		ymin.append(float(yi.strip()))
		xmax.append(float(xa.strip()))
		ymax.append(float(ya.strip()))
		name.append(n.strip())
		
	for i in range(0,len(xmin)):
		
		#畫box
		cv2.rectangle(im, (int(xmin[i]),int(ymin[i])), (int(xmax[i]),int(ymax[i])), (0,255,0), 4)
	
	cv2img = cv2.cvtColor(im, cv2.COLOR_BGR2RGB)
	pilimg = Image.fromarray(cv2img)
	draw = ImageDraw.Draw(pilimg)
	# ~ # 寫標註
	# ~ for i in range(0,len(xmin)):
		# ~ font = ImageFont.truetype("simhei.ttf", 40, encoding="utf-8")
		# ~ draw.text((xmin[i], ymin[i]-40), name[i], (255, 0, 0), font=font)
		
	cv2charimg = cv2.cvtColor(np.array(pilimg), cv2.COLOR_RGB2BGR)
	
	#儲存圖片
	cv2.imwrite("/home/kanghao/learning_something/about_xml/xml/"+img,cv2charimg)

但是問題來了，cv2.rectangle函式中都是int型的資料型別，我在做了除法之後都是float型資料，因此會在取整時產生誤差。誤差大概如下圖所示：

感覺還能接受……但是還是希望看到的大神指點一下，謝謝！

【學習筆記】使用python批量讀取並修改xml檔案（2）

在大老闆的安排下最近在某公司實習，實習期間要求實現一個影象識別模組的封裝。無奈基礎太薄弱，只能將任務細分，單獨學習來實現。以此為背景…… 這一篇記錄一些在實際使用中踩到的坑。在實際使用中，我在A資料夾下對圖片進行了標註，隨後將圖片移動到B資料夾下。那麼相應的，標註後的xml檔案中，<p

【學習筆記】使用python批量讀取並修改xml檔案（3）

在大老闆的安排下最近在某公司實習，實習期間要求實現一個影象識別模組的封裝。無奈基礎太薄弱，只能將任務細分，單獨學習來實現。以此為背景…… 經過公司師姐的指點，突然毛瑟頓開，編寫了V3.0的程式碼，可以實現的功能：使用者輸入欲改變的圖片尺寸後計算新的xml中bnb box的值、將圖片尺寸改變後

【學習筆記】使用python批量讀取並修改xml檔案（4）

在大老闆的安排下最近在某公司實習，實習期間要求實現一個影象識別模組的封裝。無奈基礎太薄弱，只能將任務細分，單獨學習來實現。以此為背景…… 程式碼更新V4.0版本，通過openCV實現xml中bounding box在原始影象和尺寸調整後的圖片中的視覺化（part three部分）。方便對比尺

【學習筆記】使用python批量讀取並修改xml檔案

在大老闆的安排下最近在某公司實習，實習期間要求實現一個影象識別模組的封裝。無奈基礎太薄弱，只能將任務細分，單獨學習來實現。以此為背景…… 本篇目標：通過python批量訪問並修改xml檔案。目前，存在的問題是，標註好一批圖片後，若改變圖片尺寸，則原始的xml檔案中的bnbbox資料作廢

【學習筆記】深入理解js原型和閉包（3）——prototype原型

既typeof之後的另一位老朋友！ prototype也是我們的老朋友，即使不瞭解的人，也應該都聽過它的大名。如果它還是您的新朋友，我估計您也是javascript的新朋友。在咱們的第一節（深入理解js原型和閉包（1）——一切皆是物件）中說道，函式也是一種物件。他也是屬性的集合，你也可以

【學習筆記】深入理解js原型和閉包（8）——簡述【執行上下文】上

什麼是“執行上下文”（也叫做“執行上下文環境”）？暫且不下定義，先看一段程式碼：第一句報錯，a未定義，很正常。第二句、第三句輸出都是undefined，說明瀏覽器在執行console.log(a)時，已經知道了a是undefined，但卻不知道a是10（第三句中）。在一段js程式碼拿過來真正一句一

【學習筆記】深入理解js原型和閉包（9）—— 簡述【執行上下文】下

繼續上一篇文章（https://www.cnblogs.com/lauzhishuai/p/10078231.html）的內容。上一篇我們講到在全域性環境下的程式碼段中，執行上下文環境中有如何資料：變數、函式表示式——變數宣告，預設賦值為undefined； this——賦值；函式宣告

【學習筆記】深入理解js原型和閉包（11）——執行上下文棧

繼續上文的內容。執行全域性程式碼時，會產生一個執行上下文環境，每次呼叫函式都又會產生執行上下文環境。當函式呼叫完成時，這個上下文環境以及其中的資料都會被消除，再重新回到全域性上下文環境。處於活動狀態的執行上下文環境只有一個。其實這是一個壓棧出棧的過程——執行上下文棧。如下圖：可

【學習筆記】深入理解js原型和閉包（12）——簡介【作用域】

提到作用域，有一句話大家（有js開發經驗者）可能比較熟悉：“javascript沒有塊級作用域”。所謂“塊”，就是大括號“｛｝”中間的語句。例如if語句：再比如for語句：所以，我們在編寫程式碼的時候，不要在“塊”裡面宣告變數，要在程式碼的一開始就宣告好了。以避免發生歧義。如： &nbs

【學習筆記】深入理解js原型和閉包（15）——閉包

前面提到的上下文環境和作用域的知識，除了瞭解這些知識之外，還是理解閉包的基礎。至於“閉包”這個詞的概念的文字描述，確實不好解釋，我看過很多遍，但是現在還是記不住。但是你只需要知道應用的兩種情況即可——函式作為返回值，函式作為引數傳遞。第一，函式作為返回值如上程式碼，bar函式作為返回值，賦

【學習筆記】深入理解js原型和閉包（17）——補this

本文對《深入理解js原型和閉包（10）——this》一篇進行補充，原文連結：https://www.cnblogs.com/lauzhishuai/p/10078307.html 原文中，講解了在javascript中this的各個情況，寫完之後發現還落下一種情況，就此補充。原文中thi

【學習筆記】深入理解js原型和閉包（18）——補充：上下文環境和作用域的關係

本系列用了大量的篇幅講解了上下文環境和作用域，有些人反映這兩個是一回兒事。本文就用一個小例子來說明一下，作用域和上下文環境絕對不是一回事兒。再說明之前，咱們先用簡單的語言來概括一下這兩個的區別。 00 上下文環境：可以理解為一個看不見摸不著的物件（有若干個屬性），雖然看不見

【學習筆記】python爬取百度真實url

python 今天跑個腳本需要一堆測試的url，，，挨個找復制粘貼肯定不是程序員的風格，so，還是寫個腳本吧。環境：python2.7 編輯器：sublime text 3 一、分析一下首先非常感謝百度大佬的url分類非常整齊，都在一個

【學習筆記】python 進階特性

可能 pytho red nbsp python blog 有一個自省 blue __slots__魔法在Python中，每個類都有實例屬性。默認情況下Python用一個字典來保存一個對象的實例屬性。這非常有用，因為它允許我們在運行時去設置任意的新屬性。然而，對於有

【學習筆記】python-日誌logging

and 輸出流 Matter message deb 實例化 formatter 創建級別一、日誌分為幾個級別？debug--調試信息info--詳細信息：數據進度warning 警告信息error 錯誤信息critical 致命的嚴重的錯誤二、實例impo

【學習筆記】Python基礎-字典Dict和Set和List與Str擴充套件

Dict 使用大括號圍起來，這裡提供一種鍵值對的list表示方法 1. Dict {} 2. List [] 3. turple () 例項程式碼 #!/usr/bin/env python3 # -*- coding: utf-8 -*- #

【學習筆記】Python基礎-aiohttp

aiohttp 的初始化函式init()也是一個coroutine，loop.create_server()則利用asyncio建立TCP服務安裝 aiohttp 安裝命令: pip install aiohttp D:\PythonProjec

【學習筆記】Hands-on ML with sklearn&tensorflow [TF] [2]placeholder nodes實現mini-batch

為了實現mini-batch，需要一種節點，在每次迭代使用一個新的batch，可以用placeholder node實現這個功能。 >>>A = placeholder(tf.float32, shape=(None, 3)) >>>B = A + 5 #這裡

【原始碼剖析】Launcher 8.0 原始碼 25---使用者操作（2）模式切換

模式就是介面，除普通模式外，Launcher還有兩個特殊模式，分別是overView模式和Springloader模式。此處採用狀態模式這種設計模式，共有三個狀態。 overView模式是長按桌面空白處，出現特殊功能，比如設定桌布，新增widget，特殊設定（橫屏開關

【Altera SoC】基於SOPC的單通道TDC設計（2）

.debug_reset_request (cpu_debug_reset_request_reset), // debug_reset_request.reset

【學習筆記】使用python批量讀取並修改xml檔案（2）

相關推薦