(三) 验证XML文档
XML解析时,通过文档定义类型(DTD)或一个XML Schema定义自动检验某个文档的结构是否正确,减少处理空白字符或错误检查的工作。
例如,DTD包含一个规则<!ELEMENT font (name,size)>,表明一个font元素有两个子元素,分别是name和size。
XML Schema语言用于表示同样的约束形式如下
?
<xsd:element name="font"> <xsd:sequence> <xsd:element name="name" type="xsd:string"/> <xsd:element name="size" type="xsd:int"/> </xsd:sequence> </xsd:element>
?
Schema可以表达更复杂的验证条件(比如size元素必须包含一个整数),与DTD语法不同,Schema使用XML,处理起来更方便。
1.文档定义类型(DTD Document Type Definition)
提供DTD的方式有多种
(1)直接写到XML文件中
?
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE root [ <!Element configuration> more rules ]> <root> ... </root>
?
在该代码中使用[]来限定其界限。文档类型必须符合根元素的名字,比如上例中的root。该方法不常见,因为DTD会使XML文档变长。
(2)将DTD存储在XML文档外,并通过SYSTEM声明来实现。
可以设定一个包含DTD的URL
<!DOCTYPE root SYSTEM "config.dtd"/>?
??? 或?
?
<!DOCTYPE root SYSTEM "http://myserver.com/config.dtd"/>?
注意:如果使用的是DTD的相对URL(比如"config.dtd"),给解析器应该是一个文件或URL对象,而不是InputStream。如果必须从一个输入流来解析,需要提供实体渲染器。
(3)源于SGML的用于识别"众所周知"的DTD的机制,通过PUBLIC来定义,如果XML处理器知道如何定位带有公共标示符的DTD,则不需要URL。
?
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE web-app PUBLIC "-//Sun Microsystems, Inc.//DTD Web Application 2.2//EN" "http://java.sun.com/j2ee/dtds/web-app_2.2.dtd" > <web-app></web-app>?
如果使用的是DTD解析器,并且想要支持公共标示符,需要调用DocumentBuilder类的setEntityResolver方法来安装EntityResolver接口的某一个实现类的一个对象,该接口只有一个方法resolveEntity
?
import java.io.IOException; import org.xml.sax.EntityResolver; import org.xml.sax.InputSource; import org.xml.sax.SAXException; public class TestUsePublicDtdXML implements EntityResolver{ @Override public InputSource resolveEntity(String publicId, String systemId) throws SAXException, IOException { if(publicId.equals(a know ID)){ return new InputSource(DTD data); } return null; } }?
可以从InputStream、Reader或字符串构建输入源。
(4)ELEMENT规则用于规范某个元素可以拥有什么样的子元素。可以设定一个正则表达式,它由 元素内容规则表 所示组件构成。
元素内容的规则 规则 含义 E* 0或多个E E+ 1或多个E E? 0或1个E E1|E2|...|En E1,E2...En中的一个 E1,E2,...En E1,随后是E2...En #PCDATA 文本 (#PCDATA|E1|E2|...En) 0或多个任意顺序的文本和E1,E2...En(混合式内容) ANY 允许任意子元素 EMPTY 不允许有子元素?
例1,menu元素包含0或多个item元素
?
<!ELEMENT menu (item)*>
?
例2,font是用一个name后面跟一个size来描述的,它们都包含了文本
?
<!ELEMENT font (name,size)> <!ELEMENT name (#PCDATA)> <!ELEMENT size (#PCDATA)>
?
缩写PCDTAT标识已解析的字符数据,这些数据称为“已解析的”,是因为解析器解释了该文本字符串,并正在寻找表示一个新标签起始的<字符或表示一个实体起始的&字符。
例3,元素的规范可以包含嵌套的和复杂的正则表达式,例如一个描述本书中一章的结构的规则
?
<!ELEMENT chapter (intro,(heading,(para|image|table|note)+)+)>
?
每章都以简介开头,后面是一个或多个小节,每一个小节有一个标题和1个或多个段落、图片、表格或说明组成。
例4,当一个元素可以包含文本时,只有两种情况,一种只包含文本。
<!Element name (#PCDATA)>?
??? 另一种元素包含任意顺序的文本和标签
<!ELEMENT para (#PCDATA|strong|code)*>?
??? 其他包含#PCDATA规则的类型都是非法的,比如
<!ELEMENT captionedImage (image,#PCDATA)>?
??? 就是非法的,需要引入另一个标签来包含文本
?
<!ELEMENT captionedImage (image,caption)> <!ELEMENT caption (#PCDATA)>?
注意:在设计DTD时,其中所有的元素,要么包含其他元素,要么只有文本。
例5,XML标准允许解析器假设DTD都是非二义性的。比如((x,y)|(x,z))是错误的,可以修改为(x,(y|z))。((x,y)*|x?)也是错误的,但无法修改,这时并不会发出警告,而是选取第一个匹配项,这将导致拒绝一些正确的输入。
(5)ATTLIST用于描述合法元素属性的规则。通常语法是:
<!ATTLIST关键字 element元素 attribute属性 type类型 default默认值>?
例: font元素的style属性,有4个合法属性值,默认值是plain
?
<!ATTLIST font style (plain|bold|italic|bold-italic) "plain">?
??? size元素的unit属性可以包含任意字符串数据序列
?
<!ATTLIST size unit CDATA #IMPLIED>?
?
属性类型 类型 含义 CDATA 任意字符串 (A1|A2|...|An) A1、A2...An之一 NMTOKEN,NMTOKENS 1或多个名字标记 ID 一个唯一的ID IDREF,IDREFS 1或多个唯一ID的引用 ENTITY,ENTITIES 1或多个未经解析的实体?
CDTAT属性值的处理与#PCDATA有差别,并且与<![CDATA[...]]>部分没有多大关系。属性值首先被规范化,解析器会处理字符和实体的引用(比如é或<),并且用空格来替换空白字符。
NMTOKEN(名字标记)与CDATA相似,但是大多数非字母数字字符和内部空白字符是不允许使用的,而且解析器会删除起始和结尾的空白字符。NMTOKENS是一个空白字符分隔的名字标记列表。
ID是在文档中唯一的名字标记,解析器会检查唯一性。
IDREF是对同一文档中存在的ID的引用,解析器也会对它进行检查。IDREFS是空白字符分隔的ID引用列表。
ENTITY是指一个“未经解析的外部实体”,是由SGML沿用下来的,实际应用中很少见到。DTD也可以定义实体,或者定义解析过程中被替换的缩写。
?
例: <!ENTITY back.label "Back">
?
??? 在其他地方,文本可以包含实体的引用
?
<menuitem label="&back.label;">?
??? 解析器用替换字符串来替换实体的引用。如果对应用程序进行国际化,只需修改实体定义中的字符串。其他实体的使用更加复杂,不常用。
属性的默认值 默认值 含义 #REQUIRED 属性是必须的 #IMPLIED 属性是可选的 A 属性是可选的;若未指定,解析器报告的属性是A #FIXED A 属性必须是未设定的或者是A;两者情况下,解析器报告的属性是A?
一般情况下,推荐用元素而非属性来描述数据,比如font style应该是一个独立的元素<font><style>plain</style></font>,但对于枚举类型,属性有一个优点,解析器能确认它是否合法。
(6)配置解析器来使用DTD
1)通知文档生成工厂打开验证特性。
?
factory.setValidating(true);
?
2)指定由此工厂创建的解析器在解析 XML 文档时,必须删除元素内容中的空格
?
factory.setIgnoringElementContentWhitespace(true);?
3)访问子元素
?
Element nameElement = (Element)children.item(0); Element sizeElement = (Element)children.item(1);
?
? 而不用
?
for(int i=0;i<childNodes.getLength();i++){ Node child = childNodes.item(i); if(child instanceof Element){ Element childElement = (Element)child; } }???
该工厂生产的所有文档生成器都将根据DTD来验证输入。验证最大的好处是忽略元素内容中的空白字符。
例:
<font> <name>Helvetica</name> <size>36</size> </font>?
一旦设定子元素是(name,size),解析器就知道它们之间的空白字符不是文本
4)错误处理器。当解析器报告错误时,应用程序可以对该错误执行某些操作。例如,记录到日志中,把它显示给用户,或抛出一个异常以放弃解析。因此,在验证时,应该安装一个错误处理器
? 错误处理器是一个实现了ErrorHandler接口的对象,这个接口有三个方法
?
public void warning(SAXParseException exception) throws SAXException; public void error(SAXParseException exception) throws SAXException; public void fatalError(SAXParseException exception) throws SAXException;
?
? 可以通过DocumentBuilder类的setErrorHandler方法来安装错误处理器。
?
builder.setErrorHandler(handler);
?
?
?
2.XML Schema
(1)如果要在文档中引用Schema文件,需要在根元素中加上属性
?
<?xml version="1.0"><configuration xmlns:xsi="http://w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="config.xsd"> ...</configuration>?
(2)Schema定义了每个元素的类型。类型可以是简单类型、格式受限的字符串或复制类型。
一些简单类型已经被内建到了XML Schema内,包括:
?
xsd:string xsd:int xsd:boolean
?
注意:前缀 xsd: 来表示XML Schema定义的命名空间。也有用 XS: 作为前缀。
(3)可以自己定义简单类型simpeType
例如:定义一个枚举类型
?
<xsd:simpleType name="StyleType"> <xsd:restriction base="xsd:string"> <xsd:enumeration value="PLAIN"> <xsd:enumeration value="BOLD"> <xsd:enumeration value="ITALIC"> <xsd:enumeration value="BQLD_ITALIC"> </xsd:restriction></xsd:simpleType>
?
当定义元素时,要设定它的类型:
?
<xsd:element name="name" type="xsd:string"><xsd:element name="size" type="xsd:int"><xsd:element name="style" type="simpleType">
?
类型约束了元素的内容,例如下面的元素将被正确验证:
?
<size>10</size><style>PLAIN</style>
?
下面的元素将会被解析器拒绝
?
<size>default</size><style>SLANTED</style>
?
(4)可以将类型组合成复制类型complexType,例如:
?
<xsd:complexType name="FontType"> <xsd:sequence> <xsd:element ref="name"/> <xsd:element ref="size"/> <xsd:element ref="style"/> </xsd:sequence></xsd:compleType>
?
FontType是name,size和style的序列,在这个类型定义中,通过ref属性来引用在Schema中位于别处的定义。
也可以嵌套定义,例如:
?
<xsd:complexType name="FontType"> <xsd:sequence> <xsd:element name="name" type="xsd:string"/> <xsd:element name="size" type="xsd:int"/> <xsd:element name="style" type="StyleType"> <xsd:simpleType> <xsd:restriction base="xsd:string"> <xsd:enumeration value="PLAIN"> <xsd:enumeration value="BOLD"> <xsd:enumeration value="ITALIC"> <xsd:enumeration value="BQLD_ITALIC"> </xsd:restriction> </xsd:simpleType> </xsd:element> </xsd:sequence></xsd:compleType>
?
注意:其中StyleType元素的匿名定义
(5)xsd:sequence和DTD中的连接符号等价。xsd:choice和|操作符等价。例如
?
<xsd:complexType name="contactinfo"> <xsd:choice> <xsd:element ref="email"> <xsd:element ref="phone"> </choice></xsd:complexType>
?
这和DTD中的类型email|phone类型是等价的。
(6)如果要允许重复元素,可以使用minoccurs和maxoccurs属性,例如,与DTD类型item*的等价形式如下:
?
<xsd:element name="item" type="..." minoccurs="0" maxoccurs="unbounded">?
(7)如果要设定属性,可以把xsd:attribute元素加到complexType定义中:
?
<xsd:element name="size"> <xsd:complexType> ... <xsd:attribute name="unit" type="xsd:string" use="optional" default="cm"/> </xsd:complexType></xsd:element>
?
这是与DTD声明等价的形式:
?
<!ATTLIST size unit CDTAT #IMPLIED "cm">?
(8)可以把Schema的元素和类型定义封装到xsd:schema元素中:
?
<xsd:schema xmlns:xsd="http://www.w3.org/2001/XMLSchema"> ...<xsd:schema>
?
(9)解析带有Schema的XML文件和解析带有DTD的文件类似,但有3点区别:
1)必须打开对命名空间的支持,即使在XML文件里不使用它:
?
factory.setNamespaceAware(true);
?
2)必须通过如下代码来准备处理Schema的工厂:
?
final String JAXP_SCHEMA_LANGUAGE = "http://java.sun.com/xml/jaxp/properties/schemaLanguage"; final String W3C_XML_SCHEMA = "http://www.w3.org/2001/XMLSchema"; factory.setAttribute(JAXP_SCHEMA_LANGUAGE, W3C_XML_SCHEMA);
?
3)解析器不会丢弃元素中的空白字符
?
?
?
3.XML解析实例
gridbag.dtd
?
<?xml version="1.0" encoding="UTF-8"?><!ELEMENT gridbag (row)*><!ELEMENT row (cell)*><!ELEMENT cell (bean)><!ATTLIST cell gridx CDATA #IMPLIED><!ATTLIST cell gridy CDATA #IMPLIED><!ATTLIST cell gridwidth CDATA "1"><!ATTLIST cell gridheight CDATA "1"><!ATTLIST cell weightx CDATA "0"><!ATTLIST cell weighty CDATA "0"><!ATTLIST cell fill (NONE|BOTH|HORIZONTAL|VERTICAL) "NONE"><!ATTLIST cell anchor (CENTER|NORTH|NORTHEAST|EAST|SOUTHEAST|SOUTH|SOUTHWEST|WEST|NORTHWEST) "CENTER"><!ATTLIST cell ipadx CDATA "0"><!ATTLIST cell ipady CDATA "0"><!ELEMENT bean (class, property*)><!ATTLIST bean id ID #IMPLIED><!ELEMENT class (#PCDATA)><!ELEMENT property (name, value)><!ELEMENT name (#PCDATA)><!ELEMENT value (int|string|boolean|bean)><!ELEMENT int (#PCDATA)><!ELEMENT string (#PCDATA)><!ELEMENT boolean (#PCDATA)>?
gridbag.xsd
?
<?xml version="1.0" encoding="UTF-8"?><xsd:schema xmlns:xsd="http://www.w3.org/2001/XMLSchema" ><!-- <schema xmlns="http://www.w3.org/2001/XMLSchema" targetNamespace="http://www.example.org/gridbag" xmlns:tns="http://www.example.org/gridbag" elementFormDefault="qualified"> --> <xsd:element name="gridbag" type="GridBagType"/> <xsd:element name="bean" type="BeanType"/> <xsd:complexType name="GridBagType"> <xsd:sequence> <xsd:element name="row" type="RowType" minOccurs="0" maxOccurs="unbounded"/> </xsd:sequence> </xsd:complexType> <xsd:complexType name="RowType"> <xsd:sequence> <xsd:element name="cell" type="CellType" minOccurs="0" maxOccurs="unbounded"/> </xsd:sequence> </xsd:complexType> <xsd:complexType name="CellType"> <xsd:sequence> <xsd:element ref="bean" /> </xsd:sequence> <xsd:attribute name="gridx" type="xsd:int" use="optional" /> <xsd:attribute name="gridy" type="xsd:int" use="optional" /> <xsd:attribute name="gridwidth" type="xsd:int" use="optional" default="1" /> <xsd:attribute name="gridheight" type="xsd:int" use="optional" default="1" /> <xsd:attribute name="weightx" type="xsd:int" use="optional" default="0" /> <xsd:attribute name="weighty" type="xsd:int" use="optional" default="0" /> <xsd:attribute name="fill" use="optional" default="NONE"> <xsd:simpleType> <xsd:restriction base="xsd:string" > <xsd:enumeration value="NONE" /> <xsd:enumeration value="BOTH" /> <xsd:enumeration value="HORIZONTAL" /> <xsd:enumeration value="VERTICAL" /> </xsd:restriction> </xsd:simpleType> </xsd:attribute> <xsd:attribute name="anchor" use="optional" default="CENTER"> <xsd:simpleType> <xsd:restriction base="xsd:string"> <xsd:enumeration value="CENTER" /> <xsd:enumeration value="NORTH" /> <xsd:enumeration value="NORTHEAST" /> <xsd:enumeration value="EAST" /> <xsd:enumeration value="SOUTHEAST" /> <xsd:enumeration value="SOUTH" /> <xsd:enumeration value="SOUTHWEST" /> <xsd:enumeration value="WEST" /> <xsd:enumeration value="NORTHWEST" /> </xsd:restriction> </xsd:simpleType> </xsd:attribute> <xsd:attribute name="ipady" type="xsd:int" use="optional" default="0" /> <xsd:attribute name="ipadx" type="xsd:int" use="optional" default="0" /> </xsd:complexType> <xsd:complexType name="BeanType"> <xsd:sequence> <xsd:element name="class" type="xsd:string" /> <xsd:element name="property" type="PropertyType" minOccurs="0" maxOccurs="unbounded" /> </xsd:sequence> <xsd:attribute name="id" type="xsd:ID" use="optional" /> </xsd:complexType> <xsd:complexType name="PropertyType"> <xsd:sequence> <xsd:element name="name" type="xsd:string" /> <xsd:element name="value" type="ValueType" /> </xsd:sequence> </xsd:complexType> <xsd:complexType name="ValueType"> <xsd:choice> <xsd:element ref="bean" /> <xsd:element name="int" type="xsd:int" /> <xsd:element name="string" type="xsd:string" /> <xsd:element name="boolean" type="xsd:boolean" /> </xsd:choice> </xsd:complexType></xsd:schema>
?
fontdialog.xml
?
<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE gridbag SYSTEM "gridbag.dtd" ><!-- 如果使用上级目录中的Schema验证XML文档 将<gridbag> 修改为<gridbag xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="../gridbag.xsd">-->?<gridbag> <row> <cell anchor="EAST"> <bean> <class> </class> <property> <name>text</name> <value><string>Face: </string></value> </property> </bean> </cell> <cell fill="HORIZONTAL" weightx="100"> <bean id="face"> <class>javax.swing.JComboBox</class> </bean> </cell> <cell gridheight="4" fill="BOTH" weightx="100" weighty="100"> <bean id="sample"> <class>javax.swing.JTextArea</class> <property> <name>text</name> <value><string>Thequick brown fox jumps over the lazy dog</string></value> </property> <property> <name>editable</name> <value><boolean>false</boolean></value> </property> <property> <name>lineWrap</name> <value><boolean>true</boolean></value> </property> <property> <name>border</name> <value> <bean> <class>javax.swing.border.EtchedBorder</class> </bean> </value> </property> </bean> </cell> </row> <row> <cell anchor="EAST"> <bean> <class>javax.swing.JLable</class> <property> <name>text</name> <value><string>Size: </string></value> </property> </bean> </cell> <cell fill="HORIZONTAL" weightx="100"> <bean id="size"> <class>javax.swing.JComboBox</class> </bean> </cell> </row> <row> <cell gridheight="2" weighty="100"> <bean id="bold"> <class>javax.swing.JCheckBox</class> <property> <name>text</name> <value><string>Bold</string></value> </property> </bean> </cell> </row> <row> <cell gridwidth="2" weighty="100"> <bean id="italic"> <class>javax.swing.JCheckBox</class> <property> <name>text</name> <value><string>Italic</string></value> </property> </bean> </cell> </row></gridbag>
?
?
ParseXMLDemo
?
package demo;import java.io.File;import java.util.ArrayList;import java.util.List;import javax.xml.parsers.DocumentBuilder;import javax.xml.parsers.DocumentBuilderFactory;import org.w3c.dom.Document;import org.w3c.dom.Element;import org.w3c.dom.NamedNodeMap;import org.w3c.dom.Node;import org.w3c.dom.NodeList;import org.w3c.dom.Text;public class ParseXMLDemo {private static final Integer PARSE_TYPE_DOM = 1;private static final Integer PARSE_TYPE_SAX = 2;public static void main(String[] args) {ParseXMLDemo demo = new ParseXMLDemo();String fileName = System.getProperty("user.dir") + File.separator + "conf" + File.separator + "xml" + File.separator + "fontdialog.xml";Element root = demo.getRoot(fileName, PARSE_TYPE_SAX);if(null==root){System.out.println("文件不存在或存在其它问题");System.exit(0);}demo.parseXML(root, PARSE_TYPE_DOM);}private void parseXML(Element element, Integer parseType) {//该节点名称String nodeName = element.getNodeName();//当节点为Element时,可以通过getTagName方法获取节点名称String tagName = element.getTagName();//分析该节点属性NamedNodeMap attrs = element.getAttributes(); for(int i=0;i<attrs.getLength();i++){ Node attribute = attrs.item(i); String name = attribute.getNodeName(); String value = attribute.getNodeValue(); System.out.println(); } //分析该节点下子节点NodeList children = element.getChildNodes();System.out.println(children.getLength());List<Integer> whitespaceList = new ArrayList<Integer>();for(int i=0;i<children.getLength();i++){Node child = children.item(i);if(child instanceof Text){String text = ((Text)child).getData();if("".equals(text.trim())){whitespaceList.add(i);}}else if(child instanceof Element){parseXML((Element)child, parseType);}}if(whitespaceList.size()>0){for(int i=whitespaceList.size()-1;i>=0;i--){Node child = children.item(i);element.removeChild(child);}}}private Element getRoot(String fileName, Integer parseType) {try{//得到一个DocumentBuilderFactory实例用于生成DocumentBuilderDocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();//通知文档生成工厂打开验证特性factory.setValidating(true);//当通过Schema验证时必须加入以下代码if(parseType == PARSE_TYPE_SAX){//必须打开对命名空间的支持,即使在XML文件里不使用它factory.setNamespaceAware(true);//必须通过如下代码来准备处理Schema的工厂 final String JAXP_SCHEMA_LANGUAGE = "http://java.sun.com/xml/jaxp/properties/schemaLanguage"; final String W3C_XML_SCHEMA = "http://www.w3.org/2001/XMLSchema"; factory.setAttribute(JAXP_SCHEMA_LANGUAGE, W3C_XML_SCHEMA);}//指定由此工厂创建的解析器在解析 XML 文档时,必须删除元素内容中的空格factory.setIgnoringElementContentWhitespace(true);//从DocumentBuilderFactory中得到DocumentBuilder对象DocumentBuilder builder = factory.newDocumentBuilder();//读入文档File file = new File(fileName);if(!file.exists()){return null;}Document doc = builder.parse(new File(fileName));return doc.getDocumentElement();}catch(Exception e){e.printStackTrace();return null;}}}