XML( 可扩展编辑语言 ) —— DOM解析

简介: XML( 可扩展编辑语言 ) —— DOM解析

一、DOM简介

1. 什么是DOM ?

  • 用于 XML 的标准对象模型
  • 用于 XML 的标准编程接口
  • 中立于平台和语言
  • W3C 标准

       XML DOM 定义了所有 XML 元素的对象和属性,以及访问它们的方法(接口)。

换句话来说:XML DOM 是用于获取、更改、添加或删除 XML 元素的标准。

2. 节点

根据 DOM,XML 文档中的每个成分都是一个节点

  • 整个文档是一个文档节点
  • 每个 XML 元素是一个元素节点
  • 包含在 XML 元素中的文本是文本节点
  • 每一个 XML 属性是一个属性节点

DOM实例:

<?xml version="1.0" encoding="UTF-8"?>
<students>
  <student sid="s001">
    <name>小明</name>
  </student>
  <student sid="s002">
    <name>小芳</name>
  </student>
  <student sid='s003'>
    <name>小王</name>
  </student>
</students>

在上面的 XML 中,根节点是 <students>。文档中的所有其他节点都被包含在 <students> 中。

根节点 <students> 有三个 <student> 节点,同时<student>节点有个属性节点sid="s002 "。

第一个 <student> 节点有一个节点:<name>其中每个节点都包含一个文本节点,"小明"。

二、XML解析

     1. XML配置文件的三种读取方式

         1.1 同包情况下

package com.xml.dom;
import java.io.InputStream;
import java.util.Properties;
/**
 * 读取不同位置的的配置文件(1)
 * 
 * @author 云村小威
 *
 */
public class Demo1 {
  public static void main(String[] args) throws Exception {
    // 通过类加载器加载配置文件(同包)
     InputStream stream = Demo1.class.getResourceAsStream("db.properties");
     Properties p = new Properties(); //用于读取配置文件
     //从输入流读取数据
     p.load(stream);
     System.out.println(p.getProperty("uname"));
  }
}

1.2 不同包情况下

package com.xml.dom;
import java.io.InputStream;
import java.util.Properties;
/**
 * 读取不同位置的的配置文件(2)
 * 
 * @author 云村小威
 *
 */
public class Demo1 {
  public static void main(String[] args) throws Exception {
    // 通过类加载器加载配置文件(不同包根路径下)
    InputStream stream = Demo1.class.getResourceAsStream("/db.properties");
    Properties p = new Properties(); // 用于读取配置文件
    // 从输入流读取数据
    p.load(stream);
    System.out.println(p.getProperty("uname"));
  }
}

  1.3 WEB-INF安全路径下

package com.xml.dom;
import java.io.IOException;
import java.io.InputStream;
import java.util.Properties;
import javax.servlet.ServletContext;
import javax.servlet.ServletException;
import javax.servlet.annotation.WebServlet;
import javax.servlet.http.HttpServlet;
import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpServletResponse;
/**
 * @author 云村小威
 */
@WebServlet("/WEB_INF_Servlet")
public class WEB_INF_Servlet extends HttpServlet {
  private static final long serialVersionUID = 1L;
  protected void doGet(HttpServletRequest request, HttpServletResponse response)
      throws ServletException, IOException {
    doPost(request, response);
  }
  protected void doPost(HttpServletRequest request, HttpServletResponse response)
      throws ServletException, IOException {
    //获取WEB-INF安全路径
    ServletContext context = request.getServletContext();
    InputStream stream = context.getResourceAsStream("/WEB-INF/db.properties");
    Properties p = new Properties();//Properties类用于读取配置文件
    // 从输入流读取数据
    p.load(stream);
    System.out.println(p.getProperty("uname"));
  }
}

2. DOM4J的使用

   2.1 dom4j常用的方法

selectNodes 获取某一节点(集合)
selectSingleNodes 获取单个节点
getText 获取某一标签的内容
attributeValue 获取某一标签属性的值

2.2 dom4j 使用实例

以一下xml文件在同包情况下为例:

<?xml version="1.0" encoding="UTF-8"?>
<students>
  <student sid="s001">
    <name>小黑子</name>
  </student>
  <student sid="s002">
    <name>ikun</name>
  </student>
  <student sid='s003'>
    <name>纯路人</name>
  </student>
</students>

1.selectNodes 获取某一个节点集合

package com.xml.dom;
import java.io.InputStream;
import java.util.List;
import org.dom4j.Document;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;
/**
 * 获取xml文件中内容DOM4J解析 
 * 1.selectNodes 获取某一个节点集合 
 * 
 * @author 云村小威
 *
 */
public class Demo3 {
  public static void main(String[] args) throws Exception {
    // 获取需要解析的配置文件(同包)
    InputStream stream = Demo3.class.getResourceAsStream("students.xml");
    // 实例化DOM4J核心类
    SAXReader sr = new SAXReader();
    // 读取流对象
    Document read = sr.read(stream);
    // 根据document对象获取xml文件所有内容
    // System.out.println(read.asXML());
    // 1.获取某一个标签
    List<Element> nodes = read.selectNodes("/students/student");
    for (Element element : nodes) {
      System.out.println(element.asXML());
    }
  }
}

2.selectSingleNodes 获取到单个节点

package com.xml.dom;
import java.io.InputStream;
import java.util.List;
import org.dom4j.Document;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;
/**
 * 获取xml文件中内容DOM4J解析 
 * 2.selectSingleNodes 获取到单个节点
 * 
 * @author 云村小威
 *
 */
public class Demo3 {
  public static void main(String[] args) throws Exception {
    // 获取需要解析的配置文件(同包)
    InputStream stream = Demo3.class.getResourceAsStream("students.xml");
    // 实例化DOM4J核心类
    SAXReader sr = new SAXReader();
    // 读取流对象
    Document read = sr.read(stream);
    // 根据document对象获取xml文件所有内容
    // System.out.println(read.asXML());
    List<Element> nodes = read.selectNodes("/students/student");
    for (Element element : nodes) {
      // 2.获取单个节点
      Element ele = (Element) element.selectSingleNode("name");
      System.out.println(ele.asXML());
    }
  }
}

3.getText 获取某一个标签内容

System.out.println(ele.getText());

4.attributeValue 获取某一个标签的属性

package com.xml.dom;
import java.io.InputStream;
import java.util.List;
import org.dom4j.Document;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;
/**
 * 获取xml文件中内容DOM4J解析 
 * 4.attributeValue 获取某一个标签的属性
 * 
 * @author 云村小威
 *
 */
public class Demo3 {
  public static void main(String[] args) throws Exception {
    // 获取需要解析的配置文件(同包)
    InputStream stream = Demo3.class.getResourceAsStream("students.xml");
    // 实例化DOM4J核心类
    SAXReader sr = new SAXReader();
    // 读取流对象
    Document read = sr.read(stream);
    // 根据document对象获取xml文件所有内容
    // System.out.println(read.asXML());
    List<Element> nodes = read.selectNodes("/students/student");
    for (Element element : nodes) {
      //4.attributeValue 获取某一个标签的属性
      System.out.println(element.attributeValue("sid"));
    }
  }
}

3. XPath的使用

       

package com.xml.dom;
import java.io.InputStream;
import org.dom4j.Document;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;
/**
 * xpath解析方式
 * 
 * @author 云村小威
 *
 */
public class Demo3 {
  public static void main(String[] args) throws Exception {
    // 获取需要解析的配置文件(同包)
    InputStream in = Demo2.class.getResourceAsStream("students.xml");
    // 实例化DOM4J核心类
    SAXReader sr = new SAXReader();
    // 读取流对象
    Document read2 = sr.read(in);
    Element ele2 = (Element) read2.selectSingleNode("/students/student[@sid='s002']/name");
    System.out.println(ele2.getText());
  }
}
相关文章
|
11月前
|
JavaScript 前端开发 Go
CSS 与 JS 对 DOM 解析和渲染的影响
【10月更文挑战第16天】CSS 和 JS 会在一定程度上影响 DOM 解析和渲染,了解它们之间的相互作用以及采取适当的优化措施是非常重要的。通过合理的布局和加载策略,可以提高网页的性能和用户体验,确保页面能够快速、流畅地呈现给用户。在实际开发中,要根据具体情况进行权衡和调整,以达到最佳的效果。
329 57
|
4月前
|
机器学习/深度学习 数据采集 JavaScript
用深度学习提升DOM解析——自动提取页面关键区块
本文介绍了一次二手车数据爬虫事故的解决过程,从传统XPath方案失效到结合深度学习语义提取的成功实践。面对懂车帝平台的前端异步渲染和复杂DOM结构,通过Playwright动态渲染、代理IP隐藏身份,以及BERT模型对HTML块级语义识别,实现了稳定高效的字段提取。此方法抗结构变化能力强,适用于复杂网页数据采集,如二手车、新闻等领域。架构演进从静态爬虫到动态爬虫再到语义解析,显著提升效率与稳定性。
155 13
用深度学习提升DOM解析——自动提取页面关键区块
|
10月前
|
Java
轻松上手Java字节码编辑:IDEA插件VisualClassBytes全方位解析
本插件VisualClassBytes可修改class字节码,包括class信息、字段信息、内部类,常量池和方法等。
514 6
|
5月前
|
机器学习/深度学习 数据采集 存储
深度学习在DOM解析中的应用:自动识别页面关键内容区块
本文探讨了如何通过深度学习模型优化东方财富吧财经新闻爬虫的性能。针对网络请求、DOM解析与模型推理等瓶颈,采用代理复用、批量推理、多线程并发及模型量化等策略,将单页耗时从5秒优化至2秒,提升60%以上。代码示例涵盖代理配置、TFLite模型加载、批量预测及多线程抓取,确保高效稳定运行,为大规模数据采集提供参考。
110 0
|
6月前
|
前端开发 JavaScript Java
优雅草卓伊凡:全栈工程师并非盲目学语言,转型价值全解析
优雅草卓伊凡:全栈工程师并非盲目学语言,转型价值全解析
96 0
优雅草卓伊凡:全栈工程师并非盲目学语言,转型价值全解析
|
7月前
|
存储 监控 算法
探秘员工泄密行为防线:基于Go语言的布隆过滤器算法解析
在信息爆炸时代,员工泄密行为对企业构成重大威胁。本文聚焦布隆过滤器(Bloom Filter)这一高效数据结构,结合Go语言实现算法,帮助企业识别和预防泄密风险。通过构建正常操作“指纹库”,实时监测员工操作,快速筛查可疑行为。示例代码展示了如何利用布隆过滤器检测异常操作,并提出优化建议,如调整参数、结合日志分析系统等,全方位筑牢企业信息安全防线,守护核心竞争力。
|
9月前
|
设计模式 存储 安全
【23种设计模式·全精解析 | 创建型模式篇】5种创建型模式的结构概述、实现、优缺点、扩展、使用场景、源码解析
创建型模式的主要关注点是“怎样创建对象?”,它的主要特点是"将对象的创建与使用分离”。这样可以降低系统的耦合度,使用者不需要关注对象的创建细节。创建型模式分为5种:单例模式、工厂方法模式抽象工厂式、原型模式、建造者模式。
【23种设计模式·全精解析 | 创建型模式篇】5种创建型模式的结构概述、实现、优缺点、扩展、使用场景、源码解析
|
9月前
|
存储 设计模式 算法
【23种设计模式·全精解析 | 行为型模式篇】11种行为型模式的结构概述、案例实现、优缺点、扩展对比、使用场景、源码解析
行为型模式用于描述程序在运行时复杂的流程控制,即描述多个类或对象之间怎样相互协作共同完成单个对象都无法单独完成的任务,它涉及算法与对象间职责的分配。行为型模式分为类行为模式和对象行为模式,前者采用继承机制来在类间分派行为,后者采用组合或聚合在对象间分配行为。由于组合关系或聚合关系比继承关系耦合度低,满足“合成复用原则”,所以对象行为模式比类行为模式具有更大的灵活性。 行为型模式分为: • 模板方法模式 • 策略模式 • 命令模式 • 职责链模式 • 状态模式 • 观察者模式 • 中介者模式 • 迭代器模式 • 访问者模式 • 备忘录模式 • 解释器模式
【23种设计模式·全精解析 | 行为型模式篇】11种行为型模式的结构概述、案例实现、优缺点、扩展对比、使用场景、源码解析
|
9月前
|
设计模式 存储 安全
【23种设计模式·全精解析 | 创建型模式篇】5种创建型模式的结构概述、实现、优缺点、扩展、使用场景、源码解析
结构型模式描述如何将类或对象按某种布局组成更大的结构。它分为类结构型模式和对象结构型模式,前者采用继承机制来组织接口和类,后者釆用组合或聚合来组合对象。由于组合关系或聚合关系比继承关系耦合度低,满足“合成复用原则”,所以对象结构型模式比类结构型模式具有更大的灵活性。 结构型模式分为以下 7 种: • 代理模式 • 适配器模式 • 装饰者模式 • 桥接模式 • 外观模式 • 组合模式 • 享元模式
【23种设计模式·全精解析 | 创建型模式篇】5种创建型模式的结构概述、实现、优缺点、扩展、使用场景、源码解析
|
7月前
|
存储 算法 安全
基于 Go 语言的公司内网管理软件哈希表算法深度解析与研究
在数字化办公中,公司内网管理软件通过哈希表算法保障信息安全与高效管理。哈希表基于键值对存储和查找,如用户登录验证、设备信息管理和文件权限控制等场景,Go语言实现的哈希表能快速验证用户信息,提升管理效率,确保网络稳定运行。
115 0