python 解析xml遇到xml.etree.ElementTree.ParseError: not well-formed (invalid token): |4-8

简介: python 解析xml遇到xml.etree.ElementTree.ParseError: not well-formed (invalid token): |4-8

在调试数字驱动用xml文件的方式时,包含读取xml文件的步骤,运行程序报错:

d:\test\0629>python XmlUtil.py

Traceback (most recent call last):

File “XmlUtil.py”, line 59, in

datas = xml.getDataFromXml()

File “XmlUtil.py”, line 45, in getDataFromXml

root = self.getRoot()

File “XmlUtil.py”, line 17, in getRoot

tree = ElementTree.parse(self.xmlPath)

File “C:\Python27\lib\xml\etree\ElementTree.py”, line 1182, in parse

tree.parse(source, parser)

File “C:\Python27\lib\xml\etree\ElementTree.py”, line 656, in parse

parser.feed(data)

File “C:\Python27\lib\xml\etree\ElementTree.py”, line 1659, in feed

self._raiseerror(v)

File “C:\Python27\lib\xml\etree\ElementTree.py”, line 1523, in _raiseerror

raise err

xml.etree.ElementTree.ParseError: not well-formed (invalid token): line 4, column 34

xml文件是自己手动新建的,内容是自己敲上去的,对比之前的好用的xml文件的内容,并没有问题,注意力开始放在代码上了,怎么改都不行,后来几经调试,发现重新替换了xml文件就好了,文件内容检查过,并没有问题,是个奇怪的问题,目前还没有重现

在训练Faster-RCNN 的时候也发现了这个问题,发现如果数据量变小,使用原来的数据分开训练是没有问题的,但是合在一起数据量最后为1450的时候,有错。


相关文章
|
3月前
|
XML JSON 数据处理
超越JSON:Python结构化数据处理模块全解析
本文深入解析Python中12个核心数据处理模块,涵盖csv、pandas、pickle、shelve、struct、configparser、xml、numpy、array、sqlite3和msgpack,覆盖表格处理、序列化、配置管理、科学计算等六大场景,结合真实案例与决策树,助你高效应对各类数据挑战。(238字)
248 0
|
3月前
|
XML 数据采集 API
用Lxml高效解析XML格式数据:以天气API为例
免费Python教程:实战解析中国天气网XML数据,详解Lxml库高效解析技巧、XPath用法、流式处理大文件及IP封禁应对策略,助你构建稳定数据采集系统。
240 0
|
3月前
|
数据采集 存储 JavaScript
解析Python爬虫中的Cookies和Session管理
Cookies与Session是Python爬虫中实现状态保持的核心。Cookies由服务器发送、客户端存储,用于标识用户;Session则通过唯一ID在服务端记录会话信息。二者协同实现登录模拟与数据持久化。
|
4月前
|
JSON 缓存 开发者
淘宝商品详情接口(item_get)企业级全解析:参数配置、签名机制与 Python 代码实战
本文详解淘宝开放平台taobao.item_get接口对接全流程,涵盖参数配置、MD5签名生成、Python企业级代码实现及高频问题排查,提供可落地的实战方案,助你高效稳定获取商品数据。
|
4月前
|
存储 大数据 Unix
Python生成器 vs 迭代器:从内存到代码的深度解析
在Python中,处理大数据或无限序列时,迭代器与生成器可避免内存溢出。迭代器通过`__iter__`和`__next__`手动实现,控制灵活;生成器用`yield`自动实现,代码简洁、内存高效。生成器适合大文件读取、惰性计算等场景,是性能优化的关键工具。
282 2
|
4月前
|
机器学习/深度学习 文字识别 Java
Python实现PDF图片OCR识别:从原理到实战的全流程解析
本文详解2025年Python实现扫描PDF文本提取的四大OCR方案(Tesseract、EasyOCR、PaddleOCR、OCRmyPDF),涵盖环境配置、图像预处理、核心识别与性能优化,结合财务票据、古籍数字化等实战场景,助力高效构建自动化文档处理系统。
1216 0
|
4月前
|
数据采集 Web App开发 前端开发
处理动态Token:Python爬虫应对AJAX授权请求的策略
处理动态Token:Python爬虫应对AJAX授权请求的策略
|
4月前
|
机器学习/深度学习 JSON Java
Java调用Python的5种实用方案:从简单到进阶的全场景解析
在机器学习与大数据融合背景下,Java与Python协同开发成为企业常见需求。本文通过真实案例解析5种主流调用方案,涵盖脚本调用到微服务架构,助力开发者根据业务场景选择最优方案,提升开发效率与系统性能。
1142 0
机器学习/深度学习 算法 自动驾驶
897 0
|
4月前
|
算法 安全 数据安全/隐私保护
Python随机数函数全解析:5个核心工具的实战指南
Python的random模块不仅包含基础的随机数生成函数,还提供了如randint()、choice()、shuffle()和sample()等实用工具,适用于游戏开发、密码学、统计模拟等多个领域。本文深入解析这些函数的用法、底层原理及最佳实践,帮助开发者高效利用随机数,提升代码质量与安全性。
922 0

推荐镜像

更多