前面我们讲了很多关于DTD的分类,以及如何使用不同类型DTD的方法。但是,如何最大限度地发挥DTD的作用,主要取决于如何合理地定义DTD。从这一节开始,我们就来详细地讲述这个问题。
一个DTD不仅要告诉语法分析器它所关联的XML文件的根元素是什么,而且还要告诉语法分析器文件的内容和结构,说清文件结构中的每一个细节。为了定义这些细节,我们必须展开DTD中元素说明部分,使用元素类型声明(ETD)来声明所有有效的文件元素。
ETD不但说明了每个文件中可能存在的元素,给出了元素的名字,而且给出了元素的具体类型。一个XML元素可以为空,也可以是一段纯文本,还可以有若干个子元素,而这些子元素同时又可以有它们的子元素。DTD正是通过元素之间的父子关系,描述了整个文件的结构关系。
ETD应该采用如下的结构:
因此,在前面的例子里,可以在文件序言中通过如下方式定义“联系人列表”这个元素:
<?xml version = "1.0" encoding="GB2312"
standalone = "yes"?> <!DOCTYPE 联系人列表[
<!ELEMENT 联系人列表 ANY>
]>
<联系人列表> ... </联系人列表> |
这个DTD定义了一个XML文件,它只有一个根元素,名为“联系人列表”,这个元素可以有任何类型的子元素,也可以是纯文本,还可以为空。
但是需要注意,尽管元素“联系人列表”被定义为“可以”包含其它元素,但实际上这个DTD除了“联系人列表”元素本身外没有定义任何其它元素,所以也就没有其它元素可以用作“联系人列表”的子元素。“有效的”XML文件规定文件中所使用的任何元素都必须在DTD中给出定义。因此,下面的XML文件,尽管是“形式良好的”,但并不是“有效的”,仍不能被语法解析器所接受。
<?xml version = "1.0" encoding="GB2312"
standalone = "yes"?> <!DOCTYPE 联系人列表[
<!ELEMENT 联系人列表 ANY>
]>
<联系人列表>
<联系人>
<姓名>张三</姓名>
</联系人> </联系人列表> |
不过需要区分的是,在“ANY”定义下使用任何纯文本都是无须另加说明的,这一点与元素不同。故而,在相同的DTD定义下,下面一段XML文件则是合法的:
<?xml version = "1.0" encoding="GB2312"
standalone = "yes"?> <!DOCTYPE 联系人列表[
<!ELEMENT 联系人列表 ANY>
]>
<联系人列表> 纯文本信息说明联系人信息 </联系人列表> |
为了使元素“联系人列表”中还可以包含其它元素,从而使前面的那个文件是“有效的”,我们还需要定义元素“联系人”和“姓名”。
<?xml version = "1.0" encoding="GB2312"
standalone = "yes"?> <!DOCTYPE 联系人列表[
<!ELEMENT 联系人列表 ANY>
<!ELEMENT 联系人(姓名)> <!ELEMENT
姓名(#PCDATA)>
]>
<联系人列表>
<联系人>
<姓名>张三</姓名>
</联系人> </联系人列表> |
好了,现在我们已经定义了一个XML文件,它的根元素名为“联系人列表”。“联系人列表”中可以包含任何纯文本数据,也可以含有子元素(这即是ANY的含义)。根据后面的定义,我们知道,“联系人列表”中可以包含子元素“联系人”,也可以直接包含子元素“姓名”;“联系人”元素又可以包含自己的子元素,名为“姓名”;而“姓名”则只能包含纯文本数据(即(#PCDATA))。
注意:
- 除了根元素外,在定义其它元素时使用关键字ANY都是不好的习惯。一般来说,在写一个XML文件时需要严格遵循DTD的规则,这时,一个定义明确的DTD,虽然表面上似乎充满了条条框框,但实际上会使你在书写XML文件时有规可循,反而方便了你的工作和语法分析器的工作。相反,一个在元素定义中充满了ANY的DTD,反而可能会搞得你不知所措,一头雾水。
- 在定义元素时,ETD的顺序是无关紧要的。因此
<!ELEMENT
姓名(#PCDATA)>
<!ELEMENT
联系人列表 ANY>
<!ELEMENT
联系人(姓名)>
和
<!ELEMENT 联系人列表
ANY>
<!ELEMENT
联系人(姓名)>
<!ELEMENT
姓名(#PCDATA)>
所定义的文件结构是完全相同的。
- 还有一点要注意,不能对不同的元素使用相同的元素名,即便这些元素的内容、包含的子元素不同也不行,因为它只会引起文件各个元素的混淆,使文件的可读性大打折扣。例如:
<!ELEMENT 联系人列表 ANY>
<!ELEMENT
联系人(姓名)>
<!ELEMENT
联系人(EMAIL)>
<!ELEMENT
姓名(#PCDATA)>
<!ELEMENT
EMAIL(#PCDATA)>
在这个例子中,对“联系人”的重复定义,会引起错误。
- 最后再次强调一下元素的命名。元素名的第一个字母必须是字母、或下划线(_)、或冒号(:),后跟字母、数字、句号(.)、冒号、下划线、连结号(-)的组合,并且不能包含空白符,不能以“xml”开头。另外,尽管元素的第一个字母使用冒号是合法的,但最好避免这样做,因为它会引起混淆。再有需要注意的是,尽管XML1.0标准允许使用任何长度的文件名,但是实际的XML处理器常常会限制标记名的长度。
在这一节里,我们用到了两个关键字,ANY和#PCDATA,它们的含义都很直接。同样,把“姓名”定义为“联系人”的子元素也很好理解。但实际上,正如我们前面讲到的,DTD允许你灵活地定义非常复杂的元素,所以ETD的定义还是有很多花样的。下面我们就来学习一些复杂的元素定义方式。