XML文件解析器TXml

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介:

前几天看了开源的XML文件解析器TinyXml,它是怎么实现解析的没怎么看懂,于是决定自己实现一个,反正最近不忙。先命名为TXml。现在完成了解析和查询功能,全部代码加起来不到1000行,将会继续完善它。源码必共享

先简单说一下我的思路:

1:读取XML文件信息,并存入一个字符数组中;

2:遍历数组,将数组解析成一棵树;

3:以路径的方式查询和按属性查询;

这个解析器最麻烦的地方就在怎么将字符数组解析成一颗树。我们先看一下一个简单XML文件,他包括文件头、节点、节点名称及节点值、属性名称及属性值,子节点、父节点、注释等。

<?xml version="1.0" encoding="utf-8" ?>
<!--注释-->
<Items>
  <item name="chentaihan">89757</item>
</Items>

简单介绍一下解析的实现,不太好说清楚,看代码可能更容易理解一些。递归实现,每次都从一个节点开始解析,就是从字符“<”开始,到字符“>”结束,字符<后面就是节点的名称,之后的就是节点属性,字符>后一个字符如果不是<,那就是节点的值,如果是字符<,可能是子节点也可能是这个节点结束了。遇到字符<开始递归,空格和注释直接被PASS。大致代码如下:

复制代码
const char* TXmlParser::ParseContent(const char* p,XmlNode* baseNode)
{ 
    if(p==NULL || !*p) 
        return NULL; 
    if(*p=='<')//开始一个节点
    {
        bool isNote;
        p=SkipNote(p,isNote);//跳过注释
        if(isNote) {//是注释
            ParseContent(p,baseNode); 
            return NULL;
        } 
        if(*p=='/')//结束节点
        {
            while(p!=NULL && *p && *p!='>')
            {
                p++;
            } 
            ++p=SkipWhiteSpace(p);
            ParseContent(p,baseNode->parent);//新节点
        }else{ //节点属性  
            string name;
            while(p!=NULL && *p && *p!='>' && *p!=' ' && *p!='/')
            {
                 name.push_back(*p++); 
            }
            XmlNode* node=new XmlNode(name,baseNode);
            baseNode->AppendNode(node);

            if(*p=='>')
            {
                ++p=SkipWhiteSpace(p); 
                ParseContent(p,node);//新节点
            }else{
                p=GetAttr(p,node);
                if(*p=='/')
                {
                    while(p!=NULL && *p && *p!='<')
                        p++;
                    ParseContent(p,baseNode);//新节点
                }else{
                    ++p=SkipWhiteSpace(p);  
                    ParseContent(p,node);//新节点
                }
            }  
        }
    }else{//节点的值 
        GetNodeValue(p,baseNode);
    } 
}
复制代码

按路径的方式查询。利用两个数组实现,假设这两个数组分别为A,B;第一次查询将结果存入数组A,将A作为数据源,将查询结果存入B,清除A中的数据,将B作为数据源,将查询结果存入A,反复进行,最后A,B中有一个就是查询结果。当然也可以用递归实现,我们都知道递归太深容易爆线程栈,且性能低。

按属性查询。同样没有用递归实现,有个经常出现的面试题:按层序打印一个棵树。那么这里也是按层序查找,就是利用一个队列,按根节点、根节点的直接子节点进栈,一个个匹配,不匹配就出队列。

复制代码
//根据属性查询--利用队列按层序查询
XmlNode* XmlNode::SelectSingleNodeByAttr(const string& attrName,const string& attrValue,XmlNode* node)
{  
    if(node==NULL)
        return NULL; 
    if(node->attribute!=NULL && (*node->attribute)[attrName]==attrValue)
    { 
        return node;
    } 
    queue<XmlNode*> list; 
    for(int i=node->ChildCount()-1;i>=0;i--)
    {
        list.push((*node->childNodes)[i]); 
    }

    while(list.size()>0)
    {
        XmlNode* tmpNode=list.front();
        if(tmpNode->attribute!=NULL && (*tmpNode->attribute)[attrName]==attrValue)
        { 
            return tmpNode;
        }
        for(int i=tmpNode->ChildCount()-1;i>=0;i--)
        {
            list.push((*tmpNode->childNodes)[i]); 
        }
        list.pop();
    } 
    return NULL;
}
复制代码

看了按属性查找,我们就很容易知道,C#中ConfigurationManager读取配置文件的大致实现,因为配置文件很简单,就是一个节点下面有多个节点,完全可以这样实现,根节点基本可以无视,直接就是一个字典,KEY存key的值,VALUE存value的值,查找的时间复杂度就是O(1)。

简单测试:

复制代码
#include "XmlDocument.h"
 
int main()
{
    {    
        XmlDocument doc;
        doc.Load("test.txt");   
        cout<<"XML头部:"<<doc.Head().c_str()<<endl;
        cout<<"显示全部学生成绩:" ;
        doc.ShowXML(doc);  
        cout<<endl;
        vector<XmlNode*> vect;
        doc.SelectNodes("students/student/courses/course",vect);
         
        XmlNode* node=doc.SelectSingleNode("students/Student/courses/course/Course"); 

        if(node!=NULL)
        {
            node->ShowXML(*node); 
            cout<<"name:"<<node->Name().c_str()<<endl;
            cout<<"属性:";
            node->ShowAttr() ; 
            cout<<endl;
            cout<<"value:"<<node->Value().c_str()<<endl;
            cout<<"ChildCount:"<<node->ChildCount()<<endl<<endl;
            
             XmlNode::Iterator iter=node->begin();
            while(iter!=node->end())
            { 
                cout<<"name:"<<(*((iter)._Ptr))->Name().c_str() <<endl;
                cout<<"value:"<<(*((iter)._Ptr))->Value().c_str() <<endl; 
                iter++;
            }  
        }   
        cout<<"查找name=‘英文’的节点:"<<endl;
        XmlNode* node2=doc.SelectSingleNodeByAttr("name","英文");
        if(node2!=NULL){
            node2->ShowXML(*node2); 
        }
    }
    
    system("pause");
    return 0;
}
复制代码

运行结果如下:

 

未完...待续...功能将会更加丰富,我们都值得期待!



本文转自啊汉博客园博客,原文链接:http://www.cnblogs.com/hlxs/archive/2013/04/11/3014657.html

目录
相关文章
|
3月前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
132 2
|
2月前
|
人工智能 自然语言处理 Java
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
FastExcel 是一款基于 Java 的高性能 Excel 处理工具,专注于优化大规模数据处理,提供简洁易用的 API 和流式操作能力,支持从 EasyExcel 无缝迁移。
227 9
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
|
1月前
|
Serverless 对象存储 人工智能
智能文件解析:体验阿里云多模态信息提取解决方案
在当今数据驱动的时代,信息的获取和处理效率直接影响着企业决策的速度和质量。然而,面对日益多样化的文件格式(文本、图像、音频、视频),传统的处理方法显然已经无法满足需求。
94 4
智能文件解析:体验阿里云多模态信息提取解决方案
|
4月前
|
自然语言处理 数据处理 Python
python操作和解析ppt文件 | python小知识
本文将带你从零开始,了解PPT解析的工具、工作原理以及常用的基本操作,并提供具体的代码示例和必要的说明【10月更文挑战第4天】
678 60
|
3月前
|
消息中间件 存储 Java
RocketMQ文件刷盘机制深度解析与Java模拟实现
【11月更文挑战第22天】在现代分布式系统中,消息队列(Message Queue, MQ)作为一种重要的中间件,扮演着连接不同服务、实现异步通信和消息解耦的关键角色。Apache RocketMQ作为一款高性能的分布式消息中间件,广泛应用于实时数据流处理、日志流处理等场景。为了保证消息的可靠性,RocketMQ引入了一种称为“刷盘”的机制,将消息从内存写入到磁盘中,确保消息持久化。本文将从底层原理、业务场景、概念、功能点等方面深入解析RocketMQ的文件刷盘机制,并使用Java模拟实现类似的功能。
72 3
|
3月前
|
XML Android开发 数据格式
Eclipse 创建 XML 文件
Eclipse 创建 XML 文件
51 2
|
3月前
|
Java Maven
maven项目的pom.xml文件常用标签使用介绍
第四届人文,智慧教育与服务管理国际学术会议(HWESM 2025) 2025 4th International Conference on Humanities, Wisdom Education and Service Management
305 8
|
3月前
|
存储
文件太大不能拷贝到U盘怎么办?实用解决方案全解析
当我们试图将一个大文件拷贝到U盘时,却突然跳出提示“对于目标文件系统目标文件过大”。这种情况让人感到迷茫,尤其是在急需备份或传输数据的时候。那么,文件太大为什么会无法拷贝到U盘?又该如何解决?本文将详细分析这背后的原因,并提供几个实用的方法,帮助你顺利将文件传输到U盘。
|
4月前
|
数据安全/隐私保护 流计算 开发者
python知识点100篇系列(18)-解析m3u8文件的下载视频
【10月更文挑战第6天】m3u8是苹果公司推出的一种视频播放标准,采用UTF-8编码,主要用于记录视频的网络地址。HLS(Http Live Streaming)是苹果公司提出的一种基于HTTP的流媒体传输协议,通过m3u8索引文件按序访问ts文件,实现音视频播放。本文介绍了如何通过浏览器找到m3u8文件,解析m3u8文件获取ts文件地址,下载ts文件并解密(如有必要),最后使用ffmpeg合并ts文件为mp4文件。
105 1
|
4月前
|
XML Web App开发 JavaScript
XML DOM 解析器
XML DOM 解析器

热门文章

最新文章

推荐镜像

更多