Java一分钟之-XML解析:DOM, SAX, StAX

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,1000CU*H 3个月
简介: Java中的XML解析包括DOM、SAX和StAX三种方法。DOM将XML加载成内存中的树形结构,适合小文件和需要随意访问的情况,但消耗资源大。SAX是事件驱动的,逐行读取,内存效率高,适用于大型文件,但编程复杂。StAX同样是事件驱动,但允许程序员控制解析流程,低内存占用且更灵活。每种方法都有其特定的易错点和避免策略,选择哪种取决于实际需求。

在Java开发中,XML作为一种标准的数据交换格式,其解析技术尤为重要。Java提供了三种主要的XML解析方式:DOM(Document Object Model)、SAX(Simple API for XML)和StAX(Streaming API for XML)。本文将深入浅出地探讨这三种解析方式的原理、优缺点、常见问题、易错点及避免策略,并通过代码示例加以说明。
image.png

1. DOM解析

1.1 简介

DOM将整个XML文档加载到内存中,形成一个树状结构,允许随机访问文档中的任何部分。

1.2 优点

  • 灵活性高:可以轻松遍历和修改XML文档的任意部分。
  • 直观易懂:树形结构符合人类的阅读习惯。

1.3 缺点

  • 资源消耗大:大型XML文件可能导致内存溢出。

1.4 易错点与避免

  • 内存溢出:对大文件使用DOM时,应考虑其他解析方式。
  • 代码复杂:遍历DOM树时逻辑可能较为复杂,需注意逻辑清晰。

1.5 示例代码

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import org.w3c.dom.Document;
import org.w3c.dom.NodeList;
import org.xml.sax.InputSource;
import java.io.StringReader;

public class DomExample {
   
   
    public static void main(String[] args) throws Exception {
   
   
        String xml = "<root><item id='1'>Text1</item><item id='2'>Text2</item></root>";
        DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
        DocumentBuilder builder = factory.newDocumentBuilder();
        Document doc = builder.parse(new InputSource(new StringReader(xml)));

        NodeList itemList = doc.getElementsByTagName("item");
        for (int i = 0; i < itemList.getLength(); i++) {
   
   
            System.out.println(itemList.item(i).getTextContent());
        }
    }
}

2. SAX解析

2.1 简介

SAX采用事件驱动模型,逐行读取XML,当遇到标签开始、结束、文本等内容时触发相应事件。

2.2 优点

  • 内存效率高:仅需保持当前处理节点的信息。
  • 速度快:适合处理大型文件。

2.3 缺点

  • 编程复杂:需要手动实现事件处理器。
  • 不可逆向访问:一旦读过的信息无法回溯。

2.4 易错点与避免

  • 状态管理:需仔细管理解析过程中的状态,避免逻辑混乱。
  • 事件遗漏:确保处理所有可能的事件类型。

2.5 示例代码

import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;

import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;

public class SaxExample {
   
   
    public static void main(String[] args) throws Exception {
   
   
        SAXParserFactory factory = SAXParserFactory.newInstance();
        SAXParser saxParser = factory.newSAXParser();

        DefaultHandler handler = new DefaultHandler() {
   
   
            public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
   
   
                if (qName.equalsIgnoreCase("item")) {
   
   
                    System.out.println("Item ID: " + attributes.getValue("id"));
                }
            }

            public void characters(char ch[], int start, int length) throws SAXException {
   
   
                System.out.println(new String(ch, start, length));
            }
        };

        saxParser.parse(new InputSource(new StringReader("<root><item id='1'>Text1</item><item id='2'>Text2</item></root>")), handler);
    }
}

3. StAX解析

3.1 简介

StAX也是基于事件驱动的流式解析,但它是“拉模式”,由程序员控制解析流程。

3.2 优点

  • 低内存占用:与SAX相似。
  • 灵活可控:程序员决定何时读取下一个事件。

3.3 缺点

  • 编程模型不同:初学者可能需要时间适应。

3.4 易错点与避免

  • 迭代器管理:确保正确使用迭代器遍历XML事件。
  • 异常处理:合理处理解析过程中可能遇到的异常。

3.5 示例代码

import javax.xml.stream.XMLInputFactory;
import javax.xml.stream.XMLStreamConstants;
import javax.xml.stream.XMLStreamReader;

public class StaxExample {
   
   
    public static void main(String[] args) throws Exception {
   
   
        XMLInputFactory factory = XMLInputFactory.newInstance();
        XMLStreamReader reader = factory.createXMLStreamReader(
                new StringReader("<root><item id='1'>Text1</item><item id='2'>Text2</item></root>")
        );

        while (reader.hasNext()) {
   
   
            int event = reader.next();
            switch (event) {
   
   
                case XMLStreamConstants.START_ELEMENT:
                    if ("item".equals(reader.getLocalName())) {
   
   
                        System.out.println("Item ID: " + reader.getAttributeValue(null, "id"));
                    }
                    break;
                case XMLStreamConstants.CHARACTERS:
                    System.out.println(reader.getText());
                    break;
            }
        }
    }
}

总结

DOM、SAX、StAX各有优势,选择哪种方式取决于具体需求。DOM适合小文件或需要频繁修改的操作;SAX和StAX更适合处理大文件,其中StAX提供了更多的控制权。理解它们的工作原理和适用场景,能够帮助你更有效地处理XML数据

目录
相关文章
|
7月前
|
存储 Java 文件存储
微服务——SpringBoot使用归纳——Spring Boot使用slf4j进行日志记录—— logback.xml 配置文件解析
本文解析了 `logback.xml` 配置文件的详细内容,包括日志输出格式、存储路径、控制台输出及日志级别等关键配置。通过定义 `LOG_PATTERN` 和 `FILE_PATH`,设置日志格式与存储路径;利用 `&lt;appender&gt;` 节点配置控制台和文件输出,支持日志滚动策略(如文件大小限制和保存时长);最后通过 `&lt;logger&gt;` 和 `&lt;root&gt;` 定义日志级别与输出方式。此配置适用于精细化管理日志输出,满足不同场景需求。
1731 1
|
7月前
|
Java 开发者
重学Java基础篇—Java类加载顺序深度解析
本文全面解析Java类的生命周期与加载顺序,涵盖从加载到卸载的七个阶段,并深入探讨初始化阶段的执行规则。通过单类、继承体系的实例分析,明确静态与实例初始化的顺序。同时,列举六种触发初始化的场景及特殊场景处理(如接口初始化)。提供类加载完整流程图与记忆口诀,助于理解复杂初始化逻辑。此外,针对空指针异常等问题提出排查方案,并给出最佳实践建议,帮助开发者优化程序设计、定位BUG及理解框架机制。最后扩展讲解类加载器层次与双亲委派机制,为深入研究奠定基础。
250 0
|
7月前
|
XML JavaScript Android开发
【Android】网络技术知识总结之WebView,HttpURLConnection,OKHttp,XML的pull解析方式
本文总结了Android中几种常用的网络技术,包括WebView、HttpURLConnection、OKHttp和XML的Pull解析方式。每种技术都有其独特的特点和适用场景。理解并熟练运用这些技术,可以帮助开发者构建高效、可靠的网络应用程序。通过示例代码和详细解释,本文为开发者提供了实用的参考和指导。
196 15
|
7月前
|
存储 设计模式 Java
重学Java基础篇—ThreadLocal深度解析与最佳实践
ThreadLocal 是一种实现线程隔离的机制,为每个线程创建独立变量副本,适用于数据库连接管理、用户会话信息存储等场景。
238 5
|
7月前
|
存储 监控 安全
重学Java基础篇—类的生命周期深度解析
本文全面解析了Java类的生命周期,涵盖加载、验证、准备、解析、初始化、使用及卸载七个关键阶段。通过分阶段执行机制详解(如加载阶段的触发条件与技术实现),结合方法调用机制、内存回收保护等使用阶段特性,以及卸载条件和特殊场景处理,帮助开发者深入理解JVM运作原理。同时,文章探讨了性能优化建议、典型异常处理及新一代JVM特性(如元空间与模块化系统)。总结中强调安全优先、延迟加载与动态扩展的设计思想,并提供开发建议与进阶方向,助力解决性能调优、内存泄漏排查及框架设计等问题。
284 5
|
7月前
|
机器学习/深度学习 人工智能 Java
Java机器学习实战:基于DJL框架的手写数字识别全解析
在人工智能蓬勃发展的今天,Python凭借丰富的生态库(如TensorFlow、PyTorch)成为AI开发的首选语言。但Java作为企业级应用的基石,其在生产环境部署、性能优化和工程化方面的优势不容忽视。DJL(Deep Java Library)的出现完美填补了Java在深度学习领域的空白,它提供了一套统一的API,允许开发者无缝对接主流深度学习框架,将AI模型高效部署到Java生态中。本文将通过手写数字识别的完整流程,深入解析DJL框架的核心机制与应用实践。
389 3
|
7月前
|
安全 IDE Java
重学Java基础篇—Java Object类常用方法深度解析
Java中,Object类作为所有类的超类,提供了多个核心方法以支持对象的基本行为。其中,`toString()`用于对象的字符串表示,重写时应包含关键信息;`equals()`与`hashCode()`需成对重写,确保对象等价判断的一致性;`getClass()`用于运行时类型识别;`clone()`实现对象复制,需区分浅拷贝与深拷贝;`wait()/notify()`支持线程协作。此外,`finalize()`已过时,建议使用更安全的资源管理方式。合理运用这些方法,并遵循最佳实践,可提升代码质量与健壮性。
205 1
|
7月前
|
传感器 监控 Java
Java代码结构解析:类、方法、主函数(1分钟解剖室)
### Java代码结构简介 掌握Java代码结构如同拥有程序世界的建筑蓝图,类、方法和主函数构成“黄金三角”。类是独立的容器,承载成员变量和方法;方法实现特定功能,参数控制输入环境;主函数是程序入口。常见错误包括类名与文件名不匹配、忘记static修饰符和花括号未闭合。通过实战案例学习电商系统、游戏角色控制和物联网设备监控,理解类的作用、方法类型和主函数任务,避免典型错误,逐步提升编程能力。 **脑图速记法**:类如太空站,方法即舱段;main是发射台,static不能换;文件名对仗,括号要成双;参数是坐标,void不返航。
276 5
|
8月前
|
Java API 数据处理
深潜数据海洋:Java文件读写全面解析与实战指南
通过本文的详细解析与实战示例,您可以系统地掌握Java中各种文件读写操作,从基本的读写到高效的NIO操作,再到文件复制、移动和删除。希望这些内容能够帮助您在实际项目中处理文件数据,提高开发效率和代码质量。
192 4
|
8月前
|
XML JSON Java
Java中Log级别和解析
日志级别定义了日志信息的重要程度,从低到高依次为:TRACE(详细调试)、DEBUG(开发调试)、INFO(一般信息)、WARN(潜在问题)、ERROR(错误信息)和FATAL(严重错误)。开发人员可根据需要设置不同的日志级别,以控制日志输出量,避免影响性能或干扰问题排查。日志框架如Log4j 2由Logger、Appender和Layout组成,通过配置文件指定日志级别、输出目标和格式。

推荐镜像

更多
  • DNS