3.1.2.1 元素类型声明
   

前面我们讲了很多关于DTD的分类,以及如何使用不同类型DTD的方法。但是,如何最大限度地发挥DTD的作用,主要取决于如何合理地定义DTD。从这一节开始,我们就来详细地讲述这个问题。

一个DTD不仅要告诉语法分析器它所关联的XML文件的根元素是什么,而且还要告诉语法分析器文件的内容和结构,说清文件结构中的每一个细节。为了定义这些细节,我们必须展开DTD中元素说明部分,使用元素类型声明(ETD)来声明所有有效的文件元素。

ETD不但说明了每个文件中可能存在的元素,给出了元素的名字,而且给出了元素的具体类型。一个XML元素可以为空,也可以是一段纯文本,还可以有若干个子元素,而这些子元素同时又可以有它们的子元素。DTD正是通过元素之间的父子关系,描述了整个文件的结构关系。

ETD应该采用如下的结构:

<!ELEMENT 元素名 元素内容描述>

因此,在前面的例子里,可以在文件序言中通过如下方式定义“联系人列表”这个元素:

<?xml version = "1.0" encoding="GB2312" standalone = "yes"?>
<!DOCTYPE 联系人列表[
    <!ELEMENT 联系人列表 ANY>
    ]>

<联系人列表>
...
</联系人列表>

这个DTD定义了一个XML文件,它只有一个根元素,名为“联系人列表”,这个元素可以有任何类型的子元素,也可以是纯文本,还可以为空。

但是需要注意,尽管元素“联系人列表”被定义为“可以”包含其它元素,但实际上这个DTD除了“联系人列表”元素本身外没有定义任何其它元素,所以也就没有其它元素可以用作“联系人列表”的子元素。“有效的”XML文件规定文件中所使用的任何元素都必须在DTD中给出定义。因此,下面的XML文件,尽管是“形式良好的”,但并不是“有效的”,仍不能被语法解析器所接受。

<?xml version = "1.0" encoding="GB2312" standalone = "yes"?>
<!DOCTYPE 联系人列表[
    <!ELEMENT 联系人列表 ANY>
    ]>

<联系人列表>
    <联系人>
        <姓名>张三</姓名>
    </联系人>
</联系人列表>


不过需要区分的是,在“ANY”定义下使用任何纯文本都是无须另加说明的,这一点与元素不同。故而,在相同的DTD定义下,下面一段XML文件则是合法的:

<?xml version = "1.0" encoding="GB2312" standalone = "yes"?>
<!DOCTYPE 联系人列表[
    <!ELEMENT 联系人列表 ANY>
    ]>

<联系人列表>
纯文本信息说明联系人信息
</联系人列表>


为了使元素“联系人列表”中还可以包含其它元素,从而使前面的那个文件是“有效的”,我们还需要定义元素“联系人”和“姓名”。

<?xml version = "1.0" encoding="GB2312" standalone = "yes"?>
<!DOCTYPE 联系人列表[
    <!ELEMENT 联系人列表 ANY>
    <!ELEMENT 联系人(姓名)>
    <!ELEMENT 姓名(#PCDATA)>   
    ]>

<联系人列表>
    <联系人>
        <姓名>张三</姓名>
    </联系人>
</联系人列表>

好了,现在我们已经定义了一个XML文件,它的根元素名为“联系人列表”。“联系人列表”中可以包含任何纯文本数据,也可以含有子元素(这即是ANY的含义)。根据后面的定义,我们知道,“联系人列表”中可以包含子元素“联系人”,也可以直接包含子元素“姓名”;“联系人”元素又可以包含自己的子元素,名为“姓名”;而“姓名”则只能包含纯文本数据(即(#PCDATA))。

注意:

  1. 除了根元素外,在定义其它元素时使用关键字ANY都是不好的习惯。一般来说,在写一个XML文件时需要严格遵循DTD的规则,这时,一个定义明确的DTD,虽然表面上似乎充满了条条框框,但实际上会使你在书写XML文件时有规可循,反而方便了你的工作和语法分析器的工作。相反,一个在元素定义中充满了ANY的DTD,反而可能会搞得你不知所措,一头雾水。
  2. 在定义元素时,ETD的顺序是无关紧要的。因此
        <!ELEMENT 姓名(#PCDATA)>   
        <!ELEMENT 联系人列表 ANY>
        <!ELEMENT 联系人(姓名)>

        <!ELEMENT 联系人列表 ANY>
        <!ELEMENT 联系人(姓名)>
        <!ELEMENT 姓名(#PCDATA)>   
    所定义的文件结构是完全相同的。
  3. 还有一点要注意,不能对不同的元素使用相同的元素名,即便这些元素的内容、包含的子元素不同也不行,因为它只会引起文件各个元素的混淆,使文件的可读性大打折扣。例如:
        <!ELEMENT 联系人列表 ANY>
        <!ELEMENT 联系人(姓名)>
        <!ELEMENT 联系人(EMAIL)>
        <!ELEMENT 姓名(#PCDATA)>
        <!ELEMENT EMAIL(#PCDATA)>
    在这个例子中,对“联系人”的重复定义,会引起错误。
  4. 最后再次强调一下元素的命名。元素名的第一个字母必须是字母、或下划线(_)、或冒号(:),后跟字母、数字、句号(.)、冒号、下划线、连结号(-)的组合,并且不能包含空白符,不能以“xml”开头。另外,尽管元素的第一个字母使用冒号是合法的,但最好避免这样做,因为它会引起混淆。再有需要注意的是,尽管XML1.0标准允许使用任何长度的文件名,但是实际的XML处理器常常会限制标记名的长度。

在这一节里,我们用到了两个关键字,ANY和#PCDATA,它们的含义都很直接。同样,把“姓名”定义为“联系人”的子元素也很好理解。但实际上,正如我们前面讲到的,DTD允许你灵活地定义非常复杂的元素,所以ETD的定义还是有很多花样的。下面我们就来学习一些复杂的元素定义方式。