《Java核心技术 卷Ⅱ 高级特性(原书第10版)》一3.6.1 使用SAX解析器-阿里云开发者社区

开发者社区> 华章出版社> 正文

《Java核心技术 卷Ⅱ 高级特性(原书第10版)》一3.6.1 使用SAX解析器

简介: 本节书摘来华章计算机《Java核心技术 卷Ⅱ 高级特性(原书第10版)》一书中的第3章 ,第3.6.1节,[美] 凯S.霍斯特曼(Cay S. Horstmann) 著陈昊鹏 译 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.6.1 使用SAX解析器

SAX解析器在解析XML输入数据的各个组成部分时会报告事件,但不会以任何方式存储文档,而是由事件处理器建立相应的数据结构。实际上,DOM解析器是在SAX解析器的基础上构建的,它在接收到解析器事件时构建DOM树。
在使用SAX解析器时,需要一个处理器来为各种解析器事件定义事件动作。ContentHandler接口定义了若干个在解析文档时解析器会调用的回调方法。下面是最重要的几个:

  • startElement和endElement在每当遇到起始或终止标签时调用。
  • characters在每当遇到字符数据时调用。
  • startDocument和endDocument分别在文档开始和结束时各调用一次。

例如,在解析以下片段时:
image

解析器会产生以下回调:
1)startElement,元素名:font
2)startElement,元素名:name
3)characters,内容:Helvetica
4)endElement,元素名:name
5)startElement,元素名:size,属性:units="pt"
6)characters,内容:36
7)endElement,元素名:size
8)endElement,元素名:font
处理器必须覆盖这些方法,让它们执行在解析文件时我们想要让它们执行的动作。本节最后的程序会打印出一个HTML文件中的所有链接image。它直接覆盖了处理器的startElement方法,以检查名字为a,且属性名为href的链接,其潜在用途包括用于实现“网络爬虫”,即一个沿着链接到达越来越多网页的程序。

注意:遗憾的是,HTML不必是合法的XML,大多数HTML页面都与良构的XML差别很大,以至于示例程序无法解析它们。但是,W3C编写的大部分页面都是用XHTML编写的,XHTML是一种HTML方言,且是良构的XML,你可以用这些页面来测试示例程序。例如,运行:

image

将看到那个页面上所有链接的URL列表。
示例程序是一个很好的使用SAX的例子。我们根本不在乎a元素出现的上下文环境,而且不必存储树形结构。
下面是如何得到SAX解析器的代码:
image

现在可以处理文档了:
image

这里的source可以是一个文件、一个URL字符串或者是一个输入流。handler属于DefaultHandler的一个子类,DefaultHandler类为以下四个接口定义了空的方法:
image

示例程序定义了一个处理器,它覆盖了ContentHandler接口的startElement方法,以观察带有href属性的a元素。
image

startElement方法有3个描述元素名的参数,其中qname参数以pref?ix:localname的形式报告限定名。如果命名空间处理特性已经打开,那么namespaceURI和lname参数提供的就是命名空间和本地(非限定)名。
与DOM解析器一样,命名空间处理特性默认是关闭的,可以调用工厂类的setNamespaceAware方法来激活命名空间处理特性:
image

在这个程序中,我们还处理了另一个常见的问题。XHTML文件总是以一个包含对DTD引用的标签开头,解析器会加载这个DTD。可以理解的是,W3C肯定不乐意对诸如www.w3.org/TR/xhtml/DTD/xhtml-strict.dtd这样的文件提供千万亿次的下载。总有一天他们会完全拒绝提供这些文件,但到写本章时为止,他们还在并不情愿地提供DTD下载。如果你不需要验证文件,只需调用:
image

程序清单3-8包含了网络爬虫程序的代码。在本章的后续部分,将会看到SAX的另一个有趣用法,即将非XML数据源转换成XML的一种简单方式是报告XML解析器将要报告的SAX事件。详情请参见3.8节。
程序清单3-8 sax/SAXTest.java
image
image

image
image
image

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

华章出版社

官方博客
官网链接