java解析XML之DOM解析和SAX解析(包含CDATA的问题)

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介:   Dom解析功能强大,可增删改查,操作时会将XML文档读到内存,因此适用于小文档;   SAX解析是从头到尾逐行逐个元素解析,修改较为不便,但适用于只读的大文档;SAX采用事件驱动的方式解析XML。

  Dom解析功能强大,可增删改查,操作时会将XML文档读到内存,因此适用于小文档;
  SAX解析是从头到尾逐行逐个元素解析,修改较为不便,但适用于只读的大文档;SAX采用事件驱动的方式解析XML。如同在电影院看电影一样,从头到尾看一遍,不能回退(Dom可来来回回读取),在看电影的过程中,每遇到一个情节,都会调用大脑去接收处理这些信息。SAX也是相同的原理,每遇到一个元素节点,都会调用相应的方法来处理。在SAX的解析过程中,读取到文档开头、文档结尾,元素的开头和元素结尾都会调用相应方法,我们可以在这些方法中进行相应事件处理。
github项目地址:https://github.com/Snailclimb/XML github
Students.xml

<?xml version="1.0" encoding="utf-8"?>

<Students> 
  <Student num="001"> 
    <name>小明</name>  
    <age>20</age>  
    <subject><![CDATA[数学&英语]]></subject>  
    <sport>篮球</sport> 
  </Student>  
  <Student num="002"> 
    <name>小红</name>  
    <age>21</age>  
    <subject><![CDATA[数学&英语]]></subject>  
    <sport>篮球</sport> 
  </Student>  
  <Student num="003"> 
    <name>小蓝</name>  
    <age>23</age>  
    <subject><![CDATA[数学&英语]]></subject>  
    <sport>篮球</sport> 
  </Student>  
  <Student num="004"> 
    <name>小白</name>  
    <age>19</age>  
    <subject><![CDATA[数学&英语]]></subject>  
    <sport>篮球</sport> 
  </Student>  
  <Student num="005"> 
    <name>小林子</name>  
    <age>18</age>  
    <subject><![CDATA[数学&英语]]></subject>  
    <sport>篮球</sport> 
  </Student>  
  <Student num="006"> 
    <name>小东子</name>  
    <age>20</age>  
    <subject><![CDATA[数学&英语]]></subject>  
    <sport>篮球</sport> 
  </Student>  
  <Student num="007"> 
    <name>小左子</name>  
    <age>21</age>  
    <subject><![CDATA[数学&英语]]></subject>  
    <sport>篮球</sport> 
  </Student>  
  <Student num="008"> 
    <name>小张</name>  
    <age>22</age>  
    <subject><![CDATA[数学&英语]]></subject> 
  </Student>  
  <Student num="009"> 
    <name>小明</name>  
    <age>23</age>  
    <subject><![CDATA[数学&英语]]></subject>  
    <sport>篮球</sport> 
  </Student>  
  <Student num="010"> 
    <name>小明</name>  
    <age>20</age>  
    <subject><![CDATA[数学&英语]]></subject>  
    <sport>篮球</sport> 
  </Student> 
</Students>

DOM解析

package cn.yangtze.domtext;

import java.io.IOException;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;

import org.w3c.dom.Document;
import org.w3c.dom.NamedNodeMap;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;

public class DomPractice {

    public static void main(String[] args) {
        // TODO Auto-generated method stub
        // 创建一个DocumentBuilderFactory的对象
        DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
        // 创建一个DocumentBuilder的对象
        try {
            // 创建DocumentBuilder对象
            DocumentBuilder db = dbf.newDocumentBuilder();
            // 通过DocumentBuilder对象的parser方法加载books.xml文件到当前项目下
            Document document = db.parse("Students.xml");
            // 获取所有Student节点的集合
            NodeList StudentList = document.getElementsByTagName("Student");
            // 通过nodelist的getLength()方法可以获取StudentList的长度
            System.out.println("DOM解析开始...");
            // 遍历每一个Student节点
            for (int i = 0; i < StudentList.getLength(); i++) {
                System.out.println("开始解析第" + (i + 1) + "个学生");
                // 通过 item(i)方法 获取一个Student节点,nodelist的索引值从0开始
                Node book = StudentList.item(i);
                // 获取Student节点的所有属性集合
                NamedNodeMap attrs = book.getAttributes();
                // 遍历Student的属性
                for (int j = 0; j < attrs.getLength(); j++) {
                    // 通过item(index)方法获取Student节点的某一个属性
                    Node attr = attrs.item(j);

                    // 输出学生的属性名和属性值
                    System.out.println(attr.getNodeName() + ":" + attr.getNodeValue());
                }
                NodeList childNodes = book.getChildNodes();
                // 遍历childNodes获取每个节点的节点名和节点值
                for (int k = 0; k < childNodes.getLength(); k++) {
                    // 区分出text类型的node以及element类型的node
                    if (childNodes.item(k).getNodeType() == Node.ELEMENT_NODE) {

                        // 输出子节点的属性名和属性值
                        System.out.println(childNodes.item(k).getNodeName() + ":"
                                + childNodes.item(k).getFirstChild().getNodeValue());

                    }

                }

            }
        } catch (ParserConfigurationException e) {
            e.printStackTrace();
        } catch (SAXException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
        System.out.println("DOM解析结束...");
    }
}

SAX解析
SAXParserHandler.java

package cn.yangtze.saxtext;

import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;

public class SAXParserHandler extends DefaultHandler {
    private int StudentIndex = 0;

    // 解析开始的标志
    @Override
    public void startDocument() throws SAXException {
        System.out.println("SAX解析开始...");
    }

    // 解析结束的标志
    @Override
    public void endDocument() throws SAXException {
        System.out.println("SAX解析结束...");
    }

    // 用来遍历XML文件的开始标签
    @Override
    public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
        // 调用DefaultHandler类的startElement方法
        super.startElement(uri, localName, qName, attributes);
        // 开始解析Student元素节点
        if (qName.equals("Student")) {
            ++StudentIndex;
            System.out.println("开始解析第" + StudentIndex + "个学生");
            //输出XML属性,也就是XML文件中的num属性,注意在因使用属性而引起的一些问题:
            /*1 ,属性无法包含多重的值(元素可以)
            2,属性无法描述树结构(元素可以)
            3,属性不易扩展(为未来的变化)
            4,属性难以阅读和维护
            5,请尽量使用元素来描述数据。而仅仅使用属性来提供与数据无关的信息。*/
            for (int i = 0; i < attributes.getLength(); ++i) {
                System.out.println(attributes.getQName(i) + ":" + attributes.getValue(i));
            }
        } else if (!qName.equals("Students")) {
            System.out.print(qName + ":");//输出元素值
        }
    }

    // 用来遍历XML文件的结束标签
    @Override
    public void endElement(String uri, String localName, String qName) throws SAXException {
        super.endElement(uri, localName, qName);
        // 判断一个学生是否解析完
        if (qName.equals("Student")) {
            System.out.println("结束解析第" + StudentIndex + "个学生");
        } 
    }

    @Override
    public void characters(char[] ch, int start, int length) throws SAXException {
        super.characters(ch, start, length);
        String text = new String(ch, start, length);
        if (!text.trim().equals("")) {
            System.out.println(text);
        } // if
    }
}

SAXDemo.java

//SAX解析XML
package cn.yangtze.saxtext;

import java.io.File;
import java.io.IOException;

import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;

import org.xml.sax.SAXException;

public class SAXDemo {
    public static void main(String[] args) {
        File file =new File("Students.xml");
        try {
            // 通过SAXParserFactory的静态方法newInstance()方法获取SAXParserFactory实例对象factory
            SAXParserFactory factory = SAXParserFactory.newInstance();
            // 通过SAXParserFactory实例的newSAXParser()方法返回SAXParser实例parser
            SAXParser saxParser = factory.newSAXParser();
            // 定义SAXParserHandler对象
            SAXParserHandler handler = new SAXParserHandler();
            // 解析XML文档
            saxParser.parse(file, handler);
        } catch (ParserConfigurationException e) {
            e.printStackTrace();
        } catch (SAXException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}
目录
相关文章
|
16天前
|
存储 缓存 安全
Java内存模型深度解析:从理论到实践####
【10月更文挑战第21天】 本文深入探讨了Java内存模型(JMM)的核心概念与底层机制,通过剖析其设计原理、内存可见性问题及其解决方案,结合具体代码示例,帮助读者构建对JMM的全面理解。不同于传统的摘要概述,我们将直接以故事化手法引入,让读者在轻松的情境中领略JMM的精髓。 ####
29 6
|
18天前
|
监控 算法 Java
Java虚拟机(JVM)的垃圾回收机制深度解析####
本文深入探讨了Java虚拟机(JVM)的垃圾回收机制,旨在揭示其背后的工作原理与优化策略。我们将从垃圾回收的基本概念入手,逐步剖析标记-清除、复制算法、标记-整理等主流垃圾回收算法的原理与实现细节。通过对比不同算法的优缺点及适用场景,为开发者提供优化Java应用性能与内存管理的实践指南。 ####
|
24天前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
64 2
|
28天前
|
Java
轻松上手Java字节码编辑:IDEA插件VisualClassBytes全方位解析
本插件VisualClassBytes可修改class字节码,包括class信息、字段信息、内部类,常量池和方法等。
78 6
|
11天前
|
Java 编译器
Java 泛型详细解析
本文将带你详细解析 Java 泛型,了解泛型的原理、常见的使用方法以及泛型的局限性,让你对泛型有更深入的了解。
24 2
Java 泛型详细解析
|
12天前
|
缓存 监控 Java
Java线程池提交任务流程底层源码与源码解析
【11月更文挑战第30天】嘿,各位技术爱好者们,今天咱们来聊聊Java线程池提交任务的底层源码与源码解析。作为一个资深的Java开发者,我相信你一定对线程池并不陌生。线程池作为并发编程中的一大利器,其重要性不言而喻。今天,我将以对话的方式,带你一步步深入线程池的奥秘,从概述到功能点,再到背景和业务点,最后到底层原理和示例,让你对线程池有一个全新的认识。
41 12
|
9天前
|
存储 算法 Java
Java内存管理深度解析####
本文深入探讨了Java虚拟机(JVM)中的内存分配与垃圾回收机制,揭示了其高效管理内存的奥秘。文章首先概述了JVM内存模型,随后详细阐述了堆、栈、方法区等关键区域的作用及管理策略。在垃圾回收部分,重点介绍了标记-清除、复制算法、标记-整理等多种回收算法的工作原理及其适用场景,并通过实际案例分析了不同GC策略对应用性能的影响。对于开发者而言,理解这些原理有助于编写出更加高效、稳定的Java应用程序。 ####
|
9天前
|
存储 监控 算法
Java虚拟机(JVM)垃圾回收机制深度解析与优化策略####
本文旨在深入探讨Java虚拟机(JVM)的垃圾回收机制,揭示其工作原理、常见算法及参数调优方法。通过剖析垃圾回收的生命周期、内存区域划分以及GC日志分析,为开发者提供一套实用的JVM垃圾回收优化指南,助力提升Java应用的性能与稳定性。 ####
|
11天前
|
Java 数据库连接 开发者
Java中的异常处理机制:深入解析与最佳实践####
本文旨在为Java开发者提供一份关于异常处理机制的全面指南,从基础概念到高级技巧,涵盖try-catch结构、自定义异常、异常链分析以及最佳实践策略。不同于传统的摘要概述,本文将以一个实际项目案例为线索,逐步揭示如何高效地管理运行时错误,提升代码的健壮性和可维护性。通过对比常见误区与优化方案,读者将获得编写更加健壮Java应用程序的实用知识。 --- ####
|
15天前
|
数据采集 存储 Web App开发
Java爬虫:深入解析商品详情的利器
在数字化时代,信息处理能力成为企业竞争的关键。本文探讨如何利用Java编写高效、准确的商品详情爬虫,涵盖爬虫技术概述、Java爬虫优势、开发步骤、法律法规遵守及数据处理分析等内容,助力电商领域市场趋势把握与决策支持。

推荐镜像

更多