《Java核心技术 卷Ⅱ 高级特性(原书第10版)》一3.2 解析XML文档

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介: 本节书摘来华章计算机《Java核心技术 卷Ⅱ 高级特性(原书第10版)》一书中的第3章 ,第3.2节,[美] 凯S.霍斯特曼(Cay S. Horstmann) 著陈昊鹏 译 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.2 解析XML文档

要处理XML文档,就要先解析(parse)它。解析器是这样一个程序:它读入一个文件,确认这个文件具有正确的格式,然后将其分解成各种元素,使得程序员能够访问这些元素。Java库提供了两种XML解析器:

  • 像文档对象模型(Document Object Model, DOM)解析器这样的树型解析器(tree parser),它们将读入的XML文档转换成树结构。
  • 像XML简单API(Simple API for XML, SAX)解析器这样的流机制解析器(streaming parser),它们在读入XML文档时生成相应的事件。

DOM解析器对于实现我们的大多数目的来说都更容易一些,所以我们首先介绍它。如果你要处理很长的文档,用它生成树结构将会消耗大量内存,或者如果你只是对于某些元素感兴趣,而不关心它们的上下文,那么在这些情况下你应该考虑使用流机制解析器。更多的信息可以查看3.6节。
DOM解析器的接口已经被W3C标准化了。org.w3c.dom包中包含了这些接口类型的定义,比如:Document和Element等。不同的提供者,比如Apache组织和IBM,都编写了实现这些接口的DOM解析器。Java XML处理API (Java API for XML Processing, JAXP)库使得我们实际上可以以插件形式使用这些解析器中的任意一个。但是JDK中也包含了从Apache解析器导出的DOM解析器。
要读入一个XML文档,首先需要一个DocumentBuilder对象,可以从DocumentBuilder Factory中得到这个对象,例如:
image

注意:如果使用输入流作为输入源,那么对于那些以该文档的位置为相对路径而被引用的文档,解析器将无法定位,比如在同一个目录中的DTD。但是,可以通过安装一个“实体解析器”(entity resolver)来解决这个问题。请查看www.xml.com/pub/a/2004/03/03/catalogs.html或www.ibm.com/developerworks/xml/library/x-mxd3.html,以了解更多信息。
Document对象是XML文档的树型结构在内存中的表示方式,它由实现了Node接口及其各种子接口的类的对象构成。图3-1显示了各个子接口的层次结构。

image

可以通过调用getDocumentElement方法来启动对文档内容的分析,它将返回根元素。
image

那么,调用getDocumentElement方法可以返回font元素。getTagName方法可以返回元素的标签名。在前面这个例子中,root.getTagName()返回字符串"font"。
如果要得到该元素的子元素(可能是子元素、文本、注释或其他节点),请使用getChildNodes方法,这个方法会返回一个类型为NodeList的集合。这个类型在标准的Java集合类创建之前就已经被标准化了,因此它具有一种不同的访问协议;item方法将得到指定索引值的项;getLength方法则提供了项的总数。因此,我们可以像下面这样枚举所有子元素:
image

图3-2显示了其DOM树。
image

如果只希望得到子元素,那么可以忽略空白字符:
image
image

现在,只会看到两个元素,它们的标签名是name和size。
正如将在下一节中所看到的那样,如果你的文档有DTD,那么你就可以做得更好。这时,解析器知道哪些元素没有文本节点的子元素,而且它会帮你剔除空白字符。
在分析name和size元素时,你肯定想获取它们包含的文本字符串。这些文本字符串本身都包含在Text类型的子节点中。既然知道了这些Text节点是唯一的子元素,就可以用getFirstChild方法而不用再遍历另一个NodeList。然后可以用getData方法获取存储在Text节点中的字符串。
image

提示:对getData的返回值调用trim方法是个好主意。如果XML文件的作者将起始和结束的标签放在不同的行上,例如:
image

那么,解析器将会把所有的换行符和空格都包含到文本节点中去。调用trim方法可以把位于实际数据前后的空白字符删掉。
也可以用getLastChild方法得到最后一项子元素,用getNextSibling得到下一个兄弟节点。这样,另一种遍历子节点集的方法就是:
image

如果要枚举节点的属性,可以调用getAttributes方法。它返回一个NamedNodeMap对象,其中包含了描述属性的Node对象。可以用和遍历NodeList一样的方式在NamedNodeMap中遍历各子节点。然后,调用getNodeName和getNodeValue方法可以得到属性名和属性值。
image

或者,如果知道属性名,则可以直接获取相应的属性值:
image

现在你已经知道怎么分析DOM树了。程序清单3-1中的程序将这些技术都运用了一遍。你可以使用File -> Open菜单选项来读入一个XML文件。DocumentBuilder对象会解析这个XML文件,并产生一个Document对象。该程序会将Document对象显示为一个JTree(参见图3-3)。
image

该树形结构清楚地显示了子元素是怎样被包含空白字符和注释的文本包围起来的。为了更清楚起见,这个程序将换行和回车字符显示为n和r。(否则,它们将显示为空框,这是Swing对字符串中不能绘制的字符显示的默认符号)。
在第10章你将会学习到该程序中用来显示树形结构和属性表的技术。DOMTreeModel类实现了TreeModel接口。getRoot方法会返回文档的根元素,getChild方法可以得到子元素的节点列表,返回被请求的索引值对应的项。表的单元格渲染器显示了以下内容:

  • 对元素,显示的是元素标签名和由所有的属性构成的一张表。
  • 对字符数据,显示的是接口(Text、Comment、CDATASection),后面跟着数据,其中换行和回车字符被n和r取代。
  • 对其他所有的节点类型,显示的是类名,后面跟着toString的结果。

程序清单3-1 dom/Treeviewer.java
image
image
image
image
image
image
image
image
image
image
image
image
image

相关文章
|
7天前
|
存储 Java 编译器
Java内存模型(JMM)深度解析####
本文深入探讨了Java内存模型(JMM)的工作原理,旨在帮助开发者理解多线程环境下并发编程的挑战与解决方案。通过剖析JVM如何管理线程间的数据可见性、原子性和有序性问题,本文将揭示synchronized关键字背后的机制,并介绍volatile关键字和final关键字在保证变量同步与不可变性方面的作用。同时,文章还将讨论现代Java并发工具类如java.util.concurrent包中的核心组件,以及它们如何简化高效并发程序的设计。无论你是初学者还是有经验的开发者,本文都将为你提供宝贵的见解,助你在Java并发编程领域更进一步。 ####
|
1天前
|
Java 编译器 数据库连接
Java中的异常处理机制深度解析####
本文深入探讨了Java编程语言中异常处理机制的核心原理、类型及其最佳实践,旨在帮助开发者更好地理解和应用这一关键特性。通过实例分析,揭示了try-catch-finally结构的重要性,以及如何利用自定义异常提升代码的健壮性和可读性。文章还讨论了异常处理在大型项目中的最佳实践,为提高软件质量提供指导。 ####
|
4天前
|
存储 人工智能 自然语言处理
高效档案管理案例介绍:文档内容批量结构化解决方案解析
档案文件内容丰富多样,传统人工管理耗时低效。思通数科AI平台通过自动布局分析、段落与标题检测、表格结构识别、嵌套内容还原及元数据生成等功能,实现档案的高精度分块处理和结构化存储,大幅提升管理和检索效率。某历史档案馆通过该平台完成了500万页档案的数字化,信息检索效率提升60%。
|
1天前
|
Java
轻松上手Java字节码编辑:IDEA插件VisualClassBytes全方位解析
本插件VisualClassBytes可修改class字节码,包括class信息、字段信息、内部类,常量池和方法等。
22 6
|
5天前
|
存储 设计模式 分布式计算
Java中的多线程编程:并发与并行的深度解析####
在当今软件开发领域,多线程编程已成为提升应用性能、响应速度及资源利用率的关键手段之一。本文将深入探讨Java平台上的多线程机制,从基础概念到高级应用,全面解析并发与并行编程的核心理念、实现方式及其在实际项目中的应用策略。不同于常规摘要的简洁概述,本文旨在通过详尽的技术剖析,为读者构建一个系统化的多线程知识框架,辅以生动实例,让抽象概念具体化,复杂问题简单化。 ####
|
5天前
|
存储 分布式计算 Java
存算分离与计算向数据移动:深度解析与Java实现
【11月更文挑战第10天】随着大数据时代的到来,数据量的激增给传统的数据处理架构带来了巨大的挑战。传统的“存算一体”架构,即计算资源与存储资源紧密耦合,在处理海量数据时逐渐显露出其局限性。为了应对这些挑战,存算分离(Disaggregated Storage and Compute Architecture)和计算向数据移动(Compute Moves to Data)两种架构应运而生,成为大数据处理领域的热门技术。
20 2
|
5天前
|
设计模式 安全 Java
Java编程中的单例模式深入解析
【10月更文挑战第31天】在编程世界中,设计模式就像是建筑中的蓝图,它们定义了解决常见问题的最佳实践。本文将通过浅显易懂的语言带你深入了解Java中广泛应用的单例模式,并展示如何实现它。
|
12天前
|
Java 程序员 开发者
Java中的异常处理机制深度解析####
本文将深入浅出地探讨Java编程语言中异常处理的核心概念与实践策略,旨在帮助开发者更好地理解如何构建健壮的应用程序。通过剖析异常体系结构、掌握有效的异常捕获与处理技巧,以及学习最佳实践,读者能够提升代码质量,减少运行时错误,从而增强软件的稳定性和用户体验。 ####
|
11天前
|
存储 缓存 安全
🌟Java零基础:深入解析Java序列化机制
【10月更文挑战第20天】本文收录于「滚雪球学Java」专栏,专业攻坚指数级提升,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&订阅!持续更新中,up!up!up!!
19 3
|
10天前
|
算法 Java 数据库连接
Java连接池技术,从基础概念出发,解析了连接池的工作原理及其重要性
本文详细介绍了Java连接池技术,从基础概念出发,解析了连接池的工作原理及其重要性。连接池通过复用数据库连接,显著提升了应用的性能和稳定性。文章还展示了使用HikariCP连接池的示例代码,帮助读者更好地理解和应用这一技术。
24 1

推荐镜像

更多
下一篇
无影云桌面