3.6.1 使用SAX解析器
SAX解析器在解析XML输入数据的各个组成部分时会报告事件,但不会以任何方式存储文档,而是由事件处理器建立相应的数据结构。实际上,DOM解析器是在SAX解析器的基础上构建的,它在接收到解析器事件时构建DOM树。
在使用SAX解析器时,需要一个处理器来为各种解析器事件定义事件动作。ContentHandler接口定义了若干个在解析文档时解析器会调用的回调方法。下面是最重要的几个:
- startElement和endElement在每当遇到起始或终止标签时调用。
- characters在每当遇到字符数据时调用。
- startDocument和endDocument分别在文档开始和结束时各调用一次。
例如,在解析以下片段时:
解析器会产生以下回调:
1)startElement,元素名:font
2)startElement,元素名:name
3)characters,内容:Helvetica
4)endElement,元素名:name
5)startElement,元素名:size,属性:units="pt"
6)characters,内容:36
7)endElement,元素名:size
8)endElement,元素名:font
处理器必须覆盖这些方法,让它们执行在解析文件时我们想要让它们执行的动作。本节最后的程序会打印出一个HTML文件中的所有链接。它直接覆盖了处理器的startElement方法,以检查名字为a,且属性名为href的链接,其潜在用途包括用于实现“网络爬虫”,即一个沿着链接到达越来越多网页的程序。
注意:遗憾的是,HTML不必是合法的XML,大多数HTML页面都与良构的XML差别很大,以至于示例程序无法解析它们。但是,W3C编写的大部分页面都是用XHTML编写的,XHTML是一种HTML方言,且是良构的XML,你可以用这些页面来测试示例程序。例如,运行:
将看到那个页面上所有链接的URL列表。
示例程序是一个很好的使用SAX的例子。我们根本不在乎a元素出现的上下文环境,而且不必存储树形结构。
下面是如何得到SAX解析器的代码:
现在可以处理文档了:
这里的source可以是一个文件、一个URL字符串或者是一个输入流。handler属于DefaultHandler的一个子类,DefaultHandler类为以下四个接口定义了空的方法:
示例程序定义了一个处理器,它覆盖了ContentHandler接口的startElement方法,以观察带有href属性的a元素。
startElement方法有3个描述元素名的参数,其中qname参数以pref?ix:localname的形式报告限定名。如果命名空间处理特性已经打开,那么namespaceURI和lname参数提供的就是命名空间和本地(非限定)名。
与DOM解析器一样,命名空间处理特性默认是关闭的,可以调用工厂类的setNamespaceAware方法来激活命名空间处理特性:
在这个程序中,我们还处理了另一个常见的问题。XHTML文件总是以一个包含对DTD引用的标签开头,解析器会加载这个DTD。可以理解的是,W3C肯定不乐意对诸如www.w3.org/TR/xhtml/DTD/xhtml-strict.dtd这样的文件提供千万亿次的下载。总有一天他们会完全拒绝提供这些文件,但到写本章时为止,他们还在并不情愿地提供DTD下载。如果你不需要验证文件,只需调用:
程序清单3-8包含了网络爬虫程序的代码。在本章的后续部分,将会看到SAX的另一个有趣用法,即将非XML数据源转换成XML的一种简单方式是报告XML解析器将要报告的SAX事件。详情请参见3.8节。
程序清单3-8 sax/SAXTest.java