《Java核心技术 卷Ⅱ 高级特性(原书第10版)》一3.6.1 使用SAX解析器

简介: 本节书摘来华章计算机《Java核心技术 卷Ⅱ 高级特性(原书第10版)》一书中的第3章 ,第3.6.1节,[美] 凯S.霍斯特曼(Cay S. Horstmann) 著陈昊鹏 译 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.6.1 使用SAX解析器

SAX解析器在解析XML输入数据的各个组成部分时会报告事件,但不会以任何方式存储文档,而是由事件处理器建立相应的数据结构。实际上,DOM解析器是在SAX解析器的基础上构建的,它在接收到解析器事件时构建DOM树。
在使用SAX解析器时,需要一个处理器来为各种解析器事件定义事件动作。ContentHandler接口定义了若干个在解析文档时解析器会调用的回调方法。下面是最重要的几个:

  • startElement和endElement在每当遇到起始或终止标签时调用。
  • characters在每当遇到字符数据时调用。
  • startDocument和endDocument分别在文档开始和结束时各调用一次。

例如,在解析以下片段时:
image

解析器会产生以下回调:
1)startElement,元素名:font
2)startElement,元素名:name
3)characters,内容:Helvetica
4)endElement,元素名:name
5)startElement,元素名:size,属性:units="pt"
6)characters,内容:36
7)endElement,元素名:size
8)endElement,元素名:font
处理器必须覆盖这些方法,让它们执行在解析文件时我们想要让它们执行的动作。本节最后的程序会打印出一个HTML文件中的所有链接image。它直接覆盖了处理器的startElement方法,以检查名字为a,且属性名为href的链接,其潜在用途包括用于实现“网络爬虫”,即一个沿着链接到达越来越多网页的程序。

注意:遗憾的是,HTML不必是合法的XML,大多数HTML页面都与良构的XML差别很大,以至于示例程序无法解析它们。但是,W3C编写的大部分页面都是用XHTML编写的,XHTML是一种HTML方言,且是良构的XML,你可以用这些页面来测试示例程序。例如,运行:

image

将看到那个页面上所有链接的URL列表。
示例程序是一个很好的使用SAX的例子。我们根本不在乎a元素出现的上下文环境,而且不必存储树形结构。
下面是如何得到SAX解析器的代码:
image

现在可以处理文档了:
image

这里的source可以是一个文件、一个URL字符串或者是一个输入流。handler属于DefaultHandler的一个子类,DefaultHandler类为以下四个接口定义了空的方法:
image

示例程序定义了一个处理器,它覆盖了ContentHandler接口的startElement方法,以观察带有href属性的a元素。
image

startElement方法有3个描述元素名的参数,其中qname参数以pref?ix:localname的形式报告限定名。如果命名空间处理特性已经打开,那么namespaceURI和lname参数提供的就是命名空间和本地(非限定)名。
与DOM解析器一样,命名空间处理特性默认是关闭的,可以调用工厂类的setNamespaceAware方法来激活命名空间处理特性:
image

在这个程序中,我们还处理了另一个常见的问题。XHTML文件总是以一个包含对DTD引用的标签开头,解析器会加载这个DTD。可以理解的是,W3C肯定不乐意对诸如www.w3.org/TR/xhtml/DTD/xhtml-strict.dtd这样的文件提供千万亿次的下载。总有一天他们会完全拒绝提供这些文件,但到写本章时为止,他们还在并不情愿地提供DTD下载。如果你不需要验证文件,只需调用:
image

程序清单3-8包含了网络爬虫程序的代码。在本章的后续部分,将会看到SAX的另一个有趣用法,即将非XML数据源转换成XML的一种简单方式是报告XML解析器将要报告的SAX事件。详情请参见3.8节。
程序清单3-8 sax/SAXTest.java
image
image

image
image
image

相关文章
|
2天前
|
并行计算 Java API
Java中的Lambda表达式应用与实例解析
【2月更文挑战第4天】本文将深入探讨Java编程语言中Lambda表达式的应用与实例解析,通过详细介绍Lambda表达式的概念、语法特点以及在实际项目开发中的运用,帮助读者更好地理解和运用这一强大的编程特性。
|
3天前
|
设计模式 存储 前端开发
Java Web开发中MVC设计模式的实现与解析
Java Web开发中MVC设计模式的实现与解析
|
3天前
|
Java 应用服务中间件 API
深入解析Java Servlet技术在Web开发中的应用
深入解析Java Servlet技术在Web开发中的应用
|
3天前
|
存储 Java
Java TreeMap:基于红黑树的排序映射解析
Java TreeMap:基于红黑树的排序映射解析
|
3天前
|
存储 缓存 Java
Java LinkedHashMap:保持插入顺序的哈希表解析
Java LinkedHashMap:保持插入顺序的哈希表解析
|
3天前
|
安全 Java
Java TreeSet:基于红黑树的排序集合解析
Java TreeSet:基于红黑树的排序集合解析
|
3天前
|
存储 安全 Java
深入解析Java List接口及其实现类
深入解析Java List接口及其实现类
|
3天前
|
存储 算法 搜索推荐
Java中的数据结构与算法解析
Java中的数据结构与算法解析
|
3天前
|
缓存 安全 算法
Java并发基础:原子类之AtomicInteger全面解析
【2月更文挑战第2天】AtomicInteger类提供了线程安全的整数操作,它通过利用底层硬件的原子性指令,能够在多线程环境中高效地实现整数的无锁更新,避免了传统同步机制带来的性能开销,在高并发场景下成为计数器可大幅提高程序的执行效率,同时又保证了数据一致性。
30 15
Java并发基础:原子类之AtomicInteger全面解析
|
4天前
|
存储 算法 安全
Java并发基础:原子类之AtomicBoolean全面解析
【2月更文挑战第1天】 AtomicBoolean类优点在于能够确保布尔值在多线程环境下的原子性操作,避免了繁琐的同步措施,它提供了高效的非阻塞算法实现,可以大大提成程序的并发性能,AtomicBoolean的API设计非常简单易用。
Java并发基础:原子类之AtomicBoolean全面解析

推荐镜像

更多