python對XML文件的良構性和有效性驗證
阿新 • • 發佈:2019-02-18
### 一 .XML文件的結構良好性驗證
結構良好的xml文件,需要遵守下面這些規則:
1.所有開始標籤必須有對應的結束標籤
2.元素可以巢狀,但是不可以重疊
3.有且只能有一個根元素
4.屬性值必須使用引號
5.一個元素不能有兩個同樣屬性名字的屬性
6.註釋不能出現在標籤內部
7.沒有轉義的" <" 或者" $"不能出現在元素和屬性的字元中
### 二.如何檢查XML文件是否是良構的
test.xml如下:
<?xml version="1.0" encoding="utf-8"?> <root> <person age="18"> <name>hzj</name> <sex>man</sex> </person> <person age="19" des="hello"> <name>kiki</name> <sex>female</sex> </person> </root>
方法:以ElementTree模組為例,直接使用parse方法。如果不報錯,這表示該XML是良構的
#encoding=gbk
from xml.etree import ElementTree as ET
try:
ET.parse('test.xml')
print '這是一個良構的XML文件'
except Exception,e:
print '這不是一個良構的XML文件'
print '可能原因:',e
執行結果:
這是一個良構的XML文件
將根標籤最後</root>,換成<root>
執行結果:
如果希望獲取更加詳細資訊,可使用lxml模組:這不是一個良構的XML文件 可能原因: no element found: line 11, column 6
lxml安裝方法請參考部落格:
http://blog.csdn.net/shirdrn/article/details/7030026
import lxml.etree as ET
try:
ET.parse('test.xml')
print '這是一個良構的XML文件'
except Exception,e:
print '這不是一個良構的XML文件'
print '可能原因:',e
執行結果:
###三.XML文件的有效性驗證這不是一個良構的XML文件 可能原因: Premature end of data in tag root line 11, line 11, column 7
python的標準庫沒有包含對XML文件的有效性驗證功能,所以下面介紹的方法都是基於lxml模組的
#3.1.DTD驗證
在DTD(Document Type Definition)檔案中說明了XML文件的元素,元素型別以及內容格式,且為這些
組成結構及之間關係定義了相應的規則。
例項解釋:
#encoding=utf-8
import lxml.etree as ET
from StringIO import StringIO
f=StringIO("<!ELEMENT empty EMPTY >")
"""
在 DTD 中,XML 元素通過元素宣告來進行宣告。元素宣告使用下面的語法:
<!ELEMENT 元素名稱 類別>
或者
<!ELEMENT 元素名稱 (元素內容)>
元素類別包括四類:EMPTY(空元素),ANY(任意),Mixed(混合),Children(子元素)
上面宣告的DTD意思是:元素empty為空
"""
dtd=ET.DTD(f)
xml=ET.XML("<empty/>") # 符合條件
print dtd.validate(xml)
xml=ET.XML("<empty>Hello LXML</empty>") #由於帶有內容,所以不符合
print dtd.validate(xml)
print dtd.error_log #列印錯誤資訊
執行結果:
True
False
<string>:1:0:ERROR:VALID:DTD_NOT_EMPTY: Element empty was declared EMPTY this one has content
這裡需要注意一下:f=StringIO("<!ELEMENT empty EMPTY >")
!和Element之間不要有空格,出現空格會報錯,資訊如下:
Traceback (most recent call last):
File "F:\python workspace\Helloworld\xml\dtd.py", line 13, in <module>
dtd=ET.DTD(f)
File "dtd.pxi", line 41, in lxml.etree.DTD.__init__ (src/lxml/lxml.etree.c:113574)
File "dtd.pxi", line 114, in lxml.etree._parseDtdFromFilelike (src/lxml/lxml.etree.c:114222)
lxml.etree.DTDParseError: error parsing DTD
#3.2 XML Schema驗證
最好對XML Schema模式有所瞭解,XML Schema語言也被稱為XML Schema Definition (XSD)W3C線上文件:
例項解釋:
import lxml.etree as ET
from StringIO import StringIO
f=StringIO("""
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"
elementFormDefault="qualified">
<xs:element name="note">
<xs:complexType>
<xs:sequence>
<xs:element name="to" type="xs:string"/>
<xs:element name="from" type="xs:string"/>
<xs:element name="heading" type="xs:string"/>
<xs:element name="body" type="xs:string"/>
</xs:sequence>
</xs:complexType>
</xs:element>
</xs:schema>
""")
xmlschema_doc=ET.parse(f)
xmlschema=ET.XMLSchema(xmlschema_doc)
valid_str=StringIO("""
<note>
<to>George</to>
<from>John</from>
<heading>Reminder</heading>
<body>Don't forget the meeting!</body>
</note>
""")
xml=ET.parse(valid_str)
print xmlschema.validate(xml)
valid_str=StringIO("""
<note>
<from>John</from>
<to>George</to>
<heading>Reminder</heading>
<body>Don't forget the meeting!</body>
</note>
""")
xml=ET.parse(valid_str)
print xmlschema.validate(xml)
print xmlschema.error_log
執行結果:True
False
<string>:3:0:ERROR:SCHEMASV:SCHEMAV_ELEMENT_CONTENT: Element 'from': This element is not expected. Expected is ( to ).
錯誤原因很明顯,因為我定義的XML Schema元素是有順序的。