使用Dom4J解析XML文档

简介: XML解析的方式XML常见的两种解析方式:DOM: 要求解析器将整个XML文件全部加载到内存中,生成一个Document对象优点:元素和元素之间保留结构、关系,可以针对元素进行增删查改操作缺点:如果XML文件过大,可能会导致内存溢出SAX:是一种速度更快,更加高效的解析方式。它是逐行扫描,边扫描边解析,并且以事件驱动的方式来进行具体的解析,每解析一行都会触发一个事件优点: 不会出现内存溢出的问题,可以处理大文件缺点:只能读,不能写概念辨析:解析器就是根据不同的解析方式提供具体的实现。为了方便开发人员来解析XML,有一些方便操作的类库。例如Dom4j其中就包含了很多解

XML解析的方式
XML常见的两种解析方式:

DOM: 要求解析器将整个XML文件全部加载到内存中,生成一个Document对象

优点:元素和元素之间保留结构、关系,可以针对元素进行增删查改操作
缺点:如果XML文件过大,可能会导致内存溢出
SAX:是一种速度更快,更加高效的解析方式。它是逐行扫描,边扫描边解析,并且以事件驱动的方式来进行具体的解析,每解析一行都会触发一个事件

优点: 不会出现内存溢出的问题,可以处理大文件
缺点:只能读,不能写
概念辨析:

解析器就是根据不同的解析方式提供具体的实现。
为了方便开发人员来解析XML,有一些方便操作的类库。例如Dom4j其中就包含了很多解析器。
使用Dom4J解析XML文档
依赖:

    <dependency>
        <groupId>org.dom4j</groupId>
        <artifactId>dom4j</artifactId>
        <version>2.1.3</version>
    </dependency>

1
2
3
4
5
使用方法:

创建解析器对象
使用解析器对象读取XML文档生成Document对象
根据Document对象获取XML的元素(标签)
常用的方法:

我们来看一段代码:

xml文件

<?xml version="1.0" encoding="UTF-8"?>
<?xml version="1.0" encoding="UTF-8"?>



张三

panpan@qq.cn


李四

wusong@qq.cn


王五

wuda@qq.cn



1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
测试代码:

public class Dom4jParseTest {

public static void main(String[] args) throws FileNotFoundException, DocumentException {
    InputStream xmlFile = Dom4jParseTest.class.getClassLoader().getResourceAsStream("Contacts.xml");
    //创建解析器对象
    SAXReader saxReader = new SAXReader();
    Document document = saxReader.read(xmlFile);
    // 获取根元素对象
    Element root = document.getRootElement();
    //获取根元素名字
    System.out.println("root.getName() ---> " + root.getName());

    // 4、拿根元素下的全部子元素对象(一级)
    // List<Element> sonEles =  root.elements();
    List<Element> sonEles =  root.elements("contact");
    for (Element sonEle : sonEles) {
        System.out.println("sonEle.getName() ---> " + sonEle.getName());
    }

    // 拿某个子元素
    Element userEle = root.element("user");
    System.out.println("userEle.getName() ---> " + userEle.getName());

    // 默认提取第一个子元素对象 (Java语言。)
    Element contact = root.element("contact");
    // 获取子元素文本
    System.out.println("contact.elementText('name') ---> " + contact.elementText("name"));
    // 去掉前后空格
    System.out.println("contact.elementTextTrim('name') ---> " + contact.elementTextTrim("name"));
    // 获取当前元素下的子元素对象
    Element email = contact.element("email");
    System.out.println("email.getText() ---> " + email.getText());
    // 去掉前后空格
    System.out.println("email.getTextTrim() ---> " + email.getTextTrim());

    // 根据元素获取属性值
    Attribute idAttr = contact.attribute("id");
    System.out.println(idAttr.getName() + "-->" + idAttr.getValue());
    // 直接提取属性值
    System.out.println("contact.attributeValue('id') ---> " + contact.attributeValue("id"));
    System.out.println("contact.attributeValue('vip') ---> " + contact.attributeValue("vip"));

}

}

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
结果:

Dom4J结合XPath解析XML
XPath使用路径表达式来定位XML文档中的元素节点或属性节点

依赖:

    <dependency>
        <groupId>jaxen</groupId>
        <artifactId>jaxen</artifactId>
        <version>1.1.6</version>
    </dependency>

1
2
3
4
5
常见的方法:

解释一下这里的Node:

在dom4j中,Node是通用的节点抽象,他有几个具体的实现类:

Element - 代表具体的XML元素
Attribute - 表示元素的属性
Text - 表示文本信息
CDATA - 表示CDATA块
Entity - 表示实体
Comment - 表示注释
Document - 表示整个文档
我们举几个例子:

Element - 代表一个XML元素


Tom

1
2
3
上例中,和都可以表示为Element。

Attribute - 元素的属性


Tom

1
2
3
上例中,gender="male"可以表示为一个Attribute节点。

Text - 元素中的文本内容

Tom
1

元素中的Tom可以表示为一个Text节点。

CDATA - CDATA块内容

<![CDATA[Tom is a good student.]]>
1
上例中的<![CDATA[Tom is a good student.]]>可以表示为一个CDATA节点。

Comment - 注释内容

1
上述注释可以表示为一个Comment节点。

Document - 代表整个XML文档

表达式:

绝对路径:/根元素/子元素/孙元素。采用绝对路径获取从根节点开始逐层的查找节点列表并返回信息。从根元素开始,一级一级向下查找,不能跨级。

相对路径:./子元素/孙元素。先得到当前节点,再采用相对路径获取下一级节点的子节点并返回信息。从当前元素开始,一级一级向下查找,不能跨级。

全文检索:直接全文搜索所有的指定元素并返回

属性查找:在全文中搜索属性,或者带属性的元素

接下来我们还是看一段代码:

xml文件:

<?xml version="1.0" encoding="UTF-8"?>



潘金莲

panpan@qq.cn


武松

wusong@qq.cn


武大狼

wuda@qq.cn




我是西门庆



1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
测试绝对路径:

/**
 1.绝对路径: /根元素/子元素/子子元素。
 */
@Test
public void parse01() throws Exception {
    // a、创建解析器对象
    SAXReader saxReader = new SAXReader();
    // b、把XML加载成Document文档对象
    Document document = saxReader.read(Dom4jWithXPath.class.getClassLoader().getResourceAsStream("xpathtest.xml"));
    // c、检索全部的名称
    List<Node> nameNodes = document.selectNodes("/contactList/contact/name");
    for (Node nameNode : nameNodes) {
        Element  nameEle = (Element) nameNode;
        System.out.println(nameEle.getTextTrim());
    }
}

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

测试相对路径:

/**
 2.相对路径: ./子元素/子元素。 (.代表了当前元素)
 */
@Test
public void parse02() throws Exception {
    // a、创建解析器对象
    SAXReader saxReader = new SAXReader();
    // b、把XML加载成Document文档对象
    Document document =
            saxReader.read(Dom4jWithXPath.class.getClassLoader().getResourceAsStream("xpathtest.xml"));
    Element root = document.getRootElement();
    // c、检索全部的名称
    List<Node> nameNodes = root.selectNodes("./contact/name");
    for (Node nameNode : nameNodes) {
        Element  nameEle = (Element) nameNode;
        System.out.println(nameEle.getTextTrim());
    }
}

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
结果和上面一样

测试全文搜索:

/**
 3.全文搜索:
 //元素  在全文找这个元素
 //元素1/元素2  在全文找元素1下面的一级元素2
 //元素1//元素2  在全文找元素1下面的全部元素2
 */
@Test
public void parse03() throws Exception {
    // a、创建解析器对象
    SAXReader saxReader = new SAXReader();
    // b、把XML加载成Document文档对象
    Document document =
            saxReader.read(Dom4jWithXPath.class.getClassLoader().getResourceAsStream("xpathtest.xml"));
    // c、检索数据
    //List<Node> nameNodes = document.selectNodes("//name");
    // List<Node> nameNodes = document.selectNodes("//contact/name");
    List<Node> nameNodes = document.selectNodes("//contact//name");
    for (Node nameNode : nameNodes) {
        Element  nameEle = (Element) nameNode;
        System.out.println(nameEle.getTextTrim());
    }
}

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

测试属性查找:

/**
 4.属性查找。
 //@属性名称  在全文检索属性对象。
 //元素[@属性名称]  在全文检索包含该属性的元素对象。
 //元素[@属性名称=值]  在全文检索包含该属性的元素且属性值为该值的元素对象。
 */
@Test
public void parse04() throws Exception {
    // a、创建解析器对象
    SAXReader saxReader = new SAXReader();
    // b、把XML加载成Document文档对象
    Document document =
            saxReader.read(Dom4jWithXPath.class.getClassLoader().getResourceAsStream("xpathtest.xml"));
    // c、检索数据
    List<Node> nodes = document.selectNodes("//@id");
    for (Node node : nodes) {
        Attribute attr = (Attribute) node;
        System.out.println(attr.getName() + "===>" + attr.getValue());
    }

    // 查询name元素(包含id属性的)

// Node node = document.selectSingleNode("//name[@id]");
Node node = document.selectSingleNode("//name[@id=888]");
Element ele = (Element) node;
System.out.println(ele.getTextTrim());
}

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

————————————————
版权声明:本文为CSDN博主「十八岁讨厌编程」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/zyb18507175502/article/details/131773177

目录
相关文章
|
2天前
|
XML Web App开发 JavaScript
XML DOM 解析器
浏览器通常内置XML解析器,将XML转换为JavaScript可操作的DOM对象。XML DOM提供遍历、修改XML节点的函数。
|
2天前
|
XML Web App开发 JavaScript
XML DOM 解析器
浏览器内置的XML解析器将XML转换为JavaScript可操作的DOM对象,允许遍历、访问和修改XML节点。要加载XML文档,如&quot;books.xml&quot;,可以使用XMLHttpRequest。以下是示例代码:创建XMLHTTP对象,打开GET请求,发送请求到服务器,然后将响应解析为DOM对象。这个过程在不同版本的浏览器中可能略有差异。
|
5天前
|
XML Web App开发 JavaScript
XML DOM 解析器
浏览器内置的XML解析器将XML转换为XML DOM,便于JavaScript操作。通过XMLHttpRequest加载XML文档,如`books.xml`,创建HTTP请求并获取响应,将响应转化为DOM对象。示例展示了在不同浏览器中创建XMLHttpRequest对象并加载XML的过程。
|
6天前
|
XML 数据格式
XML Schema 复杂元素类型详解:定义及示例解析
在XML Schema(XSD)中,复杂元素包含其他元素和/或属性,分为4类:空元素、仅含元素、仅含文本和既含元素也含文本。定义复杂元素可通过直接声明或引用预定义的复杂类型。复杂空元素仅含属性,而仅含元素的类型则只包含其他子元素。XSD提供了`&lt;xs:sequence&gt;`、`&lt;xs:all&gt;`、`&lt;xs:choice&gt;`等指示器来规定元素顺序和出现次数,以及`&lt;xs:attributeGroup&gt;`和`&lt;xs:group&gt;`来组织元素和属性。
169 7
|
7天前
|
XML Web App开发 JavaScript
XML DOM 解析器
浏览器内置的XML解析器将XML转换为JavaScript可操作的DOM对象。通过XMLHttpRequest加载XML文档,如`books.xml`,创建HTTP请求并获取响应,然后将响应解析为XML DOM,以便用JavaScript访问和处理。示例代码展示了在不同浏览器中如何使用XMLHttpRequest加载XML。
|
7天前
|
Linux 网络安全 Windows
网络安全笔记-day8,DHCP部署_dhcp搭建部署,源码解析
网络安全笔记-day8,DHCP部署_dhcp搭建部署,源码解析
|
8天前
HuggingFace Tranformers 源码解析(4)
HuggingFace Tranformers 源码解析
34 0
|
8天前
HuggingFace Tranformers 源码解析(3)
HuggingFace Tranformers 源码解析
36 0
|
8天前
|
开发工具 git
HuggingFace Tranformers 源码解析(2)
HuggingFace Tranformers 源码解析
12 0
|
8天前
|
并行计算
HuggingFace Tranformers 源码解析(1)
HuggingFace Tranformers 源码解析
19 0

推荐镜像

更多