30天拿下Python之使用xml

简介: 30天拿下Python之使用xml

概述

在上一节,我们介绍了Python的正则表达式,包括:正则表达式的定义、正则表达式的语法、re.search函数、re.match函数、re.findall函数、re.sub函数、re.compile函数、re.finditer函数、re.split函数等内容。在这一节,我们将介绍如何在Python中使用xml。

XML英文全称为eXtensible Markup Language,中文为可扩展标记语言,是一种类似于HTML,但是没有使用预定义标记的语言。因此,XML可以根据自己的设计需求来定义专属的标记。最重要的是,因为XML的基本格式是标准化的,如果你在本地或互联网上跨系统或平台共享或传输XML,接收者仍然可以解析收到的数据。一句话总结就是:XML被设计用来传输和存储数据,不用于表现和展示数据,HTML则用来表现数据。

在Python中,通常使用如下几种方式来处理xml。

SAX:英文全称为Simple API for XML,逐行扫描XML文档,边扫描边解析,占用内存较小,速度较快。缺点是不能长期留驻在内存,数据不是长久的,事件过后,若没保存数据,数据便会丢失。

DOM:英文全称为Document Object Model,会将整个XML读入内存,在内存中解析成一个树,通过对树的操作来操作XML。该方式占用内存较大,解析速度较慢。

ElementTree:元素树,兼具了SAX方式和DOM方式的优点,占用内存较小,速度较快,使用较简单。

SAX

SAX是一种基于事件的解析XML的接口,它不会将整个文档加载到内存中,而是逐行或逐个元素地读取文档,然后触发相应的事件。在Python中,可以使用内置的xml.sax模块来实现SAX解析器。该模块提供了一组基本的事件处理器类,可以用于处理XML的不同部分,比如:元素、属性、文本等。由于SAX不会将整个文档加载到内存中,因此它更适合处理大型XML文档。

假如有如下的Friends.xml文件:

<?xml version='1.0' encoding='UTF-8'?>
<Friends>
  <Friend>
    <Name>Mike</Name>
    <Age>18</Age>
  </Friend>
  <Friend>
    <Name>Tom</Name>
    <Age>16</Age>
  </Friend>
</Friends>


我们可以使用下面的示例代码来读取这个Friends.xml文件。

import os
import xml.sax
class FriendHandler(xml.sax.ContentHandler):
    def __init__(self):
        self.name = ''
        self.age = ''
    # 元素开始时调用
    def startElement(self, tag, attributes):
        self.CurrentData = tag
    # 元素结束时调用
    def endElement(self, tag):
        if self.CurrentData == 'Name':
            print('Name is', self.name)
        elif self.CurrentData == 'Age':
            print('Age is', self.age)
        self.CurrentData = ''
    # 读取字符时调用
    def characters(self, content):
        if self.CurrentData == 'Name':
            self.name = content
        elif self.CurrentData ==  'Age':
            self.age = content
parser = xml.sax.make_parser()
Handler = FriendHandler()
parser.setContentHandler(Handler)
path = os.getcwd() + 'Friends.xml'
parser.parse(path)



在上面的示例代码中,我们定义了一个名为FriendHandler的类,它继承了xml.sax.ContentHandler类,并实现了其中的三个方法,分别为:startElement、endElement和characters。当解析器遇到元素开始标签时,会调用startElement方法。当遇到元素结束标签时,会调用endElement方法。当遇到元素内的文本时,会调用characters方法。运行示例代码后,其输出如下:

Name is Mike
Age is 18
Name is Tom
Age is 16


DOM

DOM是一种用于表示HTML和XML文档的接口标准,它提供了一种方式,使得开发者可以通过编程方式访问和修改文档的内容和结构。在Python中,可以使用多种库来实现DOM解析器,比如:xml.dom.minidom、lxml等。

在下面的示例代码中,我们使用xml.dom.minidom来解析上面提到的Friends.xml文件。另外,我们还可以使用

minidom.parseString来解析xml字符串。
import xml.dom.minidom as minidom
doc = minidom.parse('Friends.xml')
root = doc.documentElement  
children = root.childNodes
for child in children:
    if child.nodeName == 'Friend':
        name = child.getElementsByTagName('Name')[0]
        print('Name is', name.childNodes[0].data)
        age = child.getElementsByTagName('Age')[0]
        print('Age is', age.childNodes[0].data)


ElementTree

ElementTree提供了一个简单而高效的API用于解析和创建XML数据,它使用了一种基于树的模型来表示XML文档,使得我们可以很方便地访问和修改XML数据的元素和属性。

在下面的示例代码中,我们使用ElementTree来解析上面提到的Friends.xml文件。

import xml.etree.ElementTree as ET
tree = ET.parse('Friends.xml')
root = tree.getroot()
for friend in root:
    name = friend[0]
    print('Name is', name.text)
    age = friend[1]
    print('Age is', age.text)

使用ElementTree,我们还可以很方便地生成xml,并保存到文件或字符串中。下面示例代码中生成的Friends_new.xml文件的内容,与上面提到的Friends.xml文件的内容相同。


import xml.etree.ElementTree as ET
 
root = ET.Element('Friends')
 
child = ET.SubElement(root, 'Friend')
child_name = ET.SubElement(child, 'Name')
child_name.text = 'Mike'
child_age = ET.SubElement(child, 'Age')
child_age.text = '18'
child = ET.SubElement(root, 'Friend')
child_name = ET.SubElement(child, 'Name')
child_name.text = 'Tom'
child_age = ET.SubElement(child, 'Age')
child_age.text = '16'
   
tree = ET.ElementTree(root)
with open('Friends_new.xml', 'wb') as file:
    tree.write(file, 'UTF-8')
相关文章
|
12天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
8天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2522 18
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
|
8天前
|
机器学习/深度学习 算法 数据可视化
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
2024年中国研究生数学建模竞赛C题聚焦磁性元件磁芯损耗建模。题目背景介绍了电能变换技术的发展与应用,强调磁性元件在功率变换器中的重要性。磁芯损耗受多种因素影响,现有模型难以精确预测。题目要求通过数据分析建立高精度磁芯损耗模型。具体任务包括励磁波形分类、修正斯坦麦茨方程、分析影响因素、构建预测模型及优化设计条件。涉及数据预处理、特征提取、机器学习及优化算法等技术。适合电气、材料、计算机等多个专业学生参与。
1525 15
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
|
4天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
10天前
|
编解码 JSON 自然语言处理
通义千问重磅开源Qwen2.5,性能超越Llama
击败Meta,阿里Qwen2.5再登全球开源大模型王座
596 14
|
1月前
|
运维 Cloud Native Devops
一线实战:运维人少,我们从 0 到 1 实践 DevOps 和云原生
上海经证科技有限公司为有效推进软件项目管理和开发工作,选择了阿里云云效作为 DevOps 解决方案。通过云效,实现了从 0 开始,到现在近百个微服务、数百条流水线与应用交付的全面覆盖,有效支撑了敏捷开发流程。
19283 30
|
10天前
|
人工智能 自动驾驶 机器人
吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界
过去22个月,AI发展速度超过任何历史时期,但我们依然还处于AGI变革的早期。生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级app,而是接管数字世界,改变物理世界。
498 49
吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界
|
1月前
|
人工智能 自然语言处理 搜索推荐
阿里云Elasticsearch AI搜索实践
本文介绍了阿里云 Elasticsearch 在AI 搜索方面的技术实践与探索。
18842 20
|
1月前
|
Rust Apache 对象存储
Apache Paimon V0.9最新进展
Apache Paimon V0.9 版本即将发布,此版本带来了多项新特性并解决了关键挑战。Paimon自2022年从Flink社区诞生以来迅速成长,已成为Apache顶级项目,并广泛应用于阿里集团内外的多家企业。
17530 13
Apache Paimon V0.9最新进展
|
3天前
|
云安全 存储 运维
叮咚!您有一份六大必做安全操作清单,请查收
云安全态势管理(CSPM)开启免费试用
368 4
叮咚!您有一份六大必做安全操作清单,请查收