[Java开发之路](11)SAX解析XML文档

简介:


1. 简介

Dom解析功能强大,可增删改查,操作时会将XML文档读到内存,因此适用于小文档;
SAX解析是从头到尾逐行逐个元素解析,修改较为不便,但适用于只读的大文档;

SAX采用事件驱动的方式解析XML。套用网友的解释:如同在电影院看电影一样,从头到尾看一遍,不能回退(Dom可来来回回读取), 在看电影的过程中,每遇到一个情节,都会调用大脑去接收处理这些信息。SAX也是相同的原理,每遇到一个元素节点,都会调用相应的方法来处理。 在SAX的解析过程中,读取到文档开头、文档结尾,元素的开头和元素结尾都会调用相应方法,我们可以在这些方法中进行相应事件处理。

对应方法:
 
   
public void startDocument() throws SAXException {
}
public void endDocument() throws SAXException {
}
public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
}
public void endElement(String uri, String localName, String qName) throws SAXException {
}

我们还需一个方法来处理元素节点中间的文本节点(我们常误以为元素节点的文本值)
 
  
public void characters(char[] ch, int start, int length) throws SAXException {
}

2. 解析

解析步骤:

(1)通过SAXParserFactory的静态方法newInstance()方法获取SAXParserFactory实例对象factory
 
  
SAXParserFactory factory = SAXParserFactory.newInstance();
(2)通过SAXParserFactory实例的newSAXParser()方法返回SAXParser实例parser
 
  
SAXParser parser = factory.newSAXParser();
(3)创建一个类继承DefaultHandler,重写其中的一些方法进行业务处理
 
  
package com.qunar.handler;
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;
public class SAXParserHandler extends DefaultHandler{
// 用来标示解析开始
@Override
public void startDocument() throws SAXException {
}
// 用来标示解析结束
@Override
public void endDocument() throws SAXException {
}
// 用来遍历XML文件的开始标签
@Override
public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
super.startElement(uri, localName, qName, attributes);
}
// 用来遍历XML文件的结束标签
@Override
public void endElement(String uri, String localName, String qName) throws SAXException {
super.endElement(uri, localName, qName);
}
@Override
public void characters(char[] ch, int start, int length) throws SAXException {
super.characters(ch, start, length);
}
}
(4)创建Handler类对象实例
 
  
// 定义SAXParserHandler对象
SAXParserHandler handler = new SAXParserHandler();
(5)解析XML文档
 
  
saxParser.parse(path, handler);


以下代码均使用本XML文档:
 
  
<?xml version="1.0" encoding="utf-8"?><bookstore>
<book category="Java">
<title lang="chi">Java多线程编程核心技术</title>
<author>高洪岩</author>
<year>2015</year>
<price>69.00</price>
</book>
<book category="C++">
<title lang="en">Effective C++: 55 Specific Ways to Improve Your Programs and Designs</title>
<author>Scott Meyers</author>
<year>2006</year>
<price>58.00</price>
</book>
<book category="Web">
<title lang="en">Learning XML</title>
<author>Erik T. Ray</author>
<year>2016</year>
<price>39.95</price>
</book>
</bookstore>

3. 具体实例:
 
  
package com.qunar.handler;
 
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;
 
 
public class SAXParserHandler extends DefaultHandler{
private int bookIndex = 0;
// 用来标示解析开始
@Override
public void startDocument() throws SAXException {
System.out.println("SAX解析开始...");
}
// 用来标示解析结束
@Override
public void endDocument() throws SAXException {
System.out.println("SAX解析结束...");
}
// 用来遍历XML文件的开始标签
@Override
public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
// 调用DefaultHandler类的startElement方法
super.startElement(uri, localName, qName, attributes);
// 开始解析book元素节点
if(qName.equals("book")){
++ bookIndex;
System.out.println("开始解析第" + bookIndex + "本书...");
// 已知book元素节点下的属性名称,根据属性名称获取属性值
/*String value = attributes.getValue("category");
System.out.println("value->"+value);*/
// 不知道book元素节点下的属性名称以及个数
int size = attributes.getLength();
for(int i = 0;i < size;++i){
System.out.println(attributes.getQName(i) + ":" + attributes.getValue(i));
}//for
}//if
else if(!qName.equals("bookstore")){
System.out.print(qName + ":");
}//else
}
// 用来遍历XML文件的结束标签
@Override
public void endElement(String uri, String localName, String qName) throws SAXException {
super.endElement(uri, localName, qName);
// 判断一本书是否解析完
if(qName.equals("book")){
System.out.println("结束解析第" + bookIndex + "本书...");
}//if
}
@Override
public void characters(char[] ch, int start, int length) throws SAXException {
super.characters(ch, start, length);
String text = new String(ch, start, length);
if(!text.trim().equals("")){
System.out.println(text);
}//if
}
}

 
  
package com.qunar.xml;
 
import java.io.IOException;
 
import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
 
import org.xml.sax.SAXException;
 
import com.qunar.handler.SAXParserHandler;
 
 
/**
* SAX方式解析XML文档
* @author sjf0115
*
*/
public class SAXXMLCode {
 
public static void main(String[] args) {
String path = "D:\\bookstore.xml";
try {
// 通过SAXParserFactory的静态方法newInstance()方法获取SAXParserFactory实例对象factory
SAXParserFactory factory = SAXParserFactory.newInstance();
// 通过SAXParserFactory实例的newSAXParser()方法返回SAXParser实例parser
SAXParser saxParser = factory.newSAXParser();
// 定义SAXParserHandler对象
SAXParserHandler handler = new SAXParserHandler();
// 解析XML文档
saxParser.parse(path, handler);
} catch (ParserConfigurationException e) {
e.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}

运行结果:

SAX解析开始...
开始解析第1本书...
category:Java
title:Java多线程编程核心技术
author:高洪岩
year:2015
price:69.00
结束解析第1本书...
开始解析第2本书...
category:C++
title:Effective C++: 55 Specific Ways to Improve Your Programs and Designs
author:Scott Meyers
year:2006
price:58.00
结束解析第2本书...
开始解析第3本书...
category:Web
title:Learning XML
author:Erik T. Ray
year:2016
price:39.95
结束解析第3本书...
SAX解析结束...

4. 解析并储存于对象中

 
  
package com.qunar.bean;
 
/**
* book实体类
* @author sjf0115
*
*/
public class Book {
private String category;
private String title;
private String author;
private String year;
private String price;
private String lang;
public String getCategory() {
return category;
}
public void setCategory(String category) {
this.category = category;
}
public String getTitle() {
return title;
}
public void setTitle(String title) {
this.title = title;
}
public String getAuthor() {
return author;
}
public void setAuthor(String author) {
this.author = author;
}
public String getYear() {
return year;
}
public void setYear(String year) {
this.year = year;
}
public String getPrice() {
return price;
}
public void setPrice(String price) {
this.price = price;
}
public String getLang() {
return lang;
}
public void setLang(String lang) {
this.lang = lang;
}
@Override
public String toString() {
return "category:" + category + " lang:" + lang + " title:" + title + " author:" + author + " year:" + year + " price:" + price;
}
}

 
  
package com.qunar.handler;
 
import java.util.ArrayList;
import java.util.List;
 
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;
 
import com.qunar.bean.Book;
 
 
public class SAXParserHandler extends DefaultHandler{
private Book book;
private int bookIndex = 0;
// 节点文本内容
private String text;
private List<Book> bookList = new ArrayList<Book>();
public List<Book> getBookList() {
return bookList;
}
// 用来标示解析开始
@Override
public void startDocument() throws SAXException {
System.out.println("SAX解析开始...");
}
// 用来标示解析结束
@Override
public void endDocument() throws SAXException {
System.out.println("SAX解析结束...");
}
// 用来遍历XML文件的开始标签
@Override
public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
// 调用DefaultHandler类的startElement方法
super.startElement(uri, localName, qName, attributes);
// 开始解析book元素节点
if(qName.equals("book")){
// 创建一个book对象
book = new Book();
++ bookIndex;
System.out.println("开始解析第" + bookIndex + "本书...");
int size = attributes.getLength();
for(int i = 0;i < size;++i){
String attr = attributes.getQName(i);
// 属性category
if(attr.equals("category")){
book.setCategory(attributes.getValue(i));
}//if
}//for
}//if
// 用于遍历title节点中的属性
else if(qName.equals("title")){
int size = attributes.getLength();
for(int i = 0;i < size;++i){
String attr = attributes.getQName(i);
// 属性category
if(attr.equals("lang")){
book.setLang(attributes.getValue(i));
}//if
}//for
}//else
}
// 用来遍历XML文件的结束标签
@Override
public void endElement(String uri, String localName, String qName) throws SAXException {
super.endElement(uri, localName, qName);
// 判断一本书是否解析完
if(qName.equals("book")){
bookList.add(book);
book = null;
System.out.println("结束解析第" + bookIndex + "本书...");
}//if
else if(qName.equals("title")){
book.setTitle(text);
}//else
else if(qName.equals("author")){
book.setAuthor(text);
}//else
else if(qName.equals("year")){
book.setYear(text);
}//else
else if(qName.equals("price")){
book.setPrice(text);
}//else
}
// 文本值
@Override
public void characters(char[] ch, int start, int length) throws SAXException {
super.characters(ch, start, length);
text = new String(ch, start, length);
}
}

 
  
package com.qunar.xml;
 
import java.io.IOException;
import java.util.List;
 
import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
 
import org.xml.sax.SAXException;
 
import com.qunar.bean.Book;
import com.qunar.handler.SAXParserHandler;
 
 
/**
* SAX方式解析XML文档
* @author sjf0115
*
*/
public class SAXXMLCode {
 
public static void main(String[] args) {
String path = "D:\\bookstore.xml";
try {
// 通过SAXParserFactory的静态方法newInstance()方法获取SAXParserFactory实例对象factory
SAXParserFactory factory = SAXParserFactory.newInstance();
// 通过SAXParserFactory实例的newSAXParser()方法返回SAXParser实例parser
SAXParser saxParser = factory.newSAXParser();
// 定义SAXParserHandler对象
SAXParserHandler handler = new SAXParserHandler();
// 解析XML文档
saxParser.parse(path, handler);
// 得到遍历结果
List<Book> bookList = handler.getBookList();
System.out.println("遍历结果:");
for (Book book : bookList) {
System.out.println(book);
}//for
} catch (ParserConfigurationException e) {
e.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}

运行结果:

SAX解析开始...
开始解析第1本书...
结束解析第1本书...
开始解析第2本书...
结束解析第2本书...
开始解析第3本书...
结束解析第3本书...
SAX解析结束...
遍历结果:
category:Java  lang:chi   title:Java多线程编程核心技术   author:高洪岩   year:2015   price:69.00
category:C++  lang:en   title:Effective C++: 55 Specific Ways to Improve Your Programs and Designs   author:Scott Meyers   year:2006   price:58.00
category:Web  lang:en   title:Learning XML   author:Erik T. Ray   year:2016   price:39.95



目录
相关文章
|
7月前
|
存储 Java 文件存储
微服务——SpringBoot使用归纳——Spring Boot使用slf4j进行日志记录—— logback.xml 配置文件解析
本文解析了 `logback.xml` 配置文件的详细内容,包括日志输出格式、存储路径、控制台输出及日志级别等关键配置。通过定义 `LOG_PATTERN` 和 `FILE_PATH`,设置日志格式与存储路径;利用 `&lt;appender&gt;` 节点配置控制台和文件输出,支持日志滚动策略(如文件大小限制和保存时长);最后通过 `&lt;logger&gt;` 和 `&lt;root&gt;` 定义日志级别与输出方式。此配置适用于精细化管理日志输出,满足不同场景需求。
1695 1
|
7月前
|
Java 开发者
重学Java基础篇—Java类加载顺序深度解析
本文全面解析Java类的生命周期与加载顺序,涵盖从加载到卸载的七个阶段,并深入探讨初始化阶段的执行规则。通过单类、继承体系的实例分析,明确静态与实例初始化的顺序。同时,列举六种触发初始化的场景及特殊场景处理(如接口初始化)。提供类加载完整流程图与记忆口诀,助于理解复杂初始化逻辑。此外,针对空指针异常等问题提出排查方案,并给出最佳实践建议,帮助开发者优化程序设计、定位BUG及理解框架机制。最后扩展讲解类加载器层次与双亲委派机制,为深入研究奠定基础。
244 0
|
7月前
|
存储 设计模式 Java
重学Java基础篇—ThreadLocal深度解析与最佳实践
ThreadLocal 是一种实现线程隔离的机制,为每个线程创建独立变量副本,适用于数据库连接管理、用户会话信息存储等场景。
232 5
|
7月前
|
存储 监控 安全
重学Java基础篇—类的生命周期深度解析
本文全面解析了Java类的生命周期,涵盖加载、验证、准备、解析、初始化、使用及卸载七个关键阶段。通过分阶段执行机制详解(如加载阶段的触发条件与技术实现),结合方法调用机制、内存回收保护等使用阶段特性,以及卸载条件和特殊场景处理,帮助开发者深入理解JVM运作原理。同时,文章探讨了性能优化建议、典型异常处理及新一代JVM特性(如元空间与模块化系统)。总结中强调安全优先、延迟加载与动态扩展的设计思想,并提供开发建议与进阶方向,助力解决性能调优、内存泄漏排查及框架设计等问题。
278 5
|
7月前
|
机器学习/深度学习 人工智能 Java
Java机器学习实战:基于DJL框架的手写数字识别全解析
在人工智能蓬勃发展的今天,Python凭借丰富的生态库(如TensorFlow、PyTorch)成为AI开发的首选语言。但Java作为企业级应用的基石,其在生产环境部署、性能优化和工程化方面的优势不容忽视。DJL(Deep Java Library)的出现完美填补了Java在深度学习领域的空白,它提供了一套统一的API,允许开发者无缝对接主流深度学习框架,将AI模型高效部署到Java生态中。本文将通过手写数字识别的完整流程,深入解析DJL框架的核心机制与应用实践。
383 3
|
Java 开发工具 git
Java开发初级6.24.3
5.在Git使用过程中,进行Git配置的操作命令是哪个() A. config B. config -g C. config -a D. git config 相关知识点: 在git中,经常使用git config 命令用来配置git的配置文件,git配置级别主要有:仓库级别 local 【优先级最高】、用户级别 global【优先级次之】、系统级别 system【优先级最低】 正确答案:D 10.RDBMS是什么? A. Rela Database Management Systems B. Relational Database Management Systems C. Relation
202 0
|
SQL 前端开发 JavaScript
Java开发初级6.24.2
3.Java网站src/main/java目录保存的是什么资源? A. Java源代码文件 B. 测试代码 C. JavaScript、CSS等文件 D. 图片资源 正确答案:A 4.什么是索引Index? A. SQL数据库里的表管理工具 B. SQL数据库里的查询工具 C. SQL数据库里的目录工具 D. SQL数据库用来加速数据查询的特殊的数据结构 正确答案:D
270 0
|
Java
Java开发初级6.24.1
1.下面关于泛型的描述中错误的一项是? A. “? extends 类”表示设置泛型上限 B. “? super 类”表示设置泛型下限 C. 利用“?”通配符可以接收全部的泛型类型实例,但却不可修改泛型属性内容 D. 如果类在定义时使用了泛型,则在实例化类对象时需要设置相应的泛型类型,否则程序将无法编译通过 相关知识点: https://edu.aliyun.com/course/35 正确答案:D 2.下列选项中属于SVN中控制鉴权用户访问版本库的权限默认权限的是() A. write B. read C. none D. null 相关知识点: auth-access:取值范围为"writ
306 0
|
Java 开发工具 git
Java开发初级6.23.3
5.在Git使用过程中,进行Git配置的操作命令是哪个() A. config B. config -g C. config -a D. git config 相关知识点: 在git中,经常使用git config 命令用来配置git的配置文件,git配置级别主要有:仓库级别 local 【优先级最高】、用户级别 global【优先级次之】、系统级别 system【优先级最低】 正确答案:D 10.RDBMS是什么? A. Rela Database Management Systems B. Relational Database Management Systems C. Relation
176 0
|
SQL 前端开发 JavaScript
Java开发初级6.23.2
3.Java网站src/main/java目录保存的是什么资源? A. Java源代码文件 B. 测试代码 C. JavaScript、CSS等文件 D. 图片资源 正确答案:A 4.什么是索引Index? A. SQL数据库里的表管理工具 B. SQL数据库里的查询工具 C. SQL数据库里的目录工具 D. SQL数据库用来加速数据查询的特殊的数据结构 正确答案:D
318 0

热门文章

最新文章

推荐镜像

更多
  • DNS
  • 下一篇
    日志分析软件