惊呆了,我的 Python 代码里面出现了薛定谔的 Bug

简介: 惊呆了,我的 Python 代码里面出现了薛定谔的 Bug

摄影:产品经理跟产品经理从花鸟市场淘回来的小花花

GNE: 新闻网页正文通用抽取器[1]更新了0.2.1版本,大幅度提高了正文的提取速度。在开发这个版本的时候,我遇到了一个非常奇怪的 Bug,最终发现是由于垃圾回收机制和内存重用机制导致的。今天我们来看看这个问题。

问题背景

先来看一段代码:

图1

这段代码读取tests/163/9.html这个文件里面的 HTML 代码,分别获取 <body> 下面的所有标签内部的所有<a>标签中的文本。说起来可能有点绕口,我举个例子。


<body>    <div>        <a href="/xx">你好</a>    </div>    <h2>        <a>世界</a>    </h2></body>

分别获取<div>标签和<h2>标签下面的<a>标签中的文本,也就是你好世界

但这段代码有个问题,就是对于嵌套结构的标签,会重复提取。例如:


<body>    <div>        <h2>            <a href="/xx">你好</a>        </h2>    </div></body>

首先,获取<div>标签下面的<a>标签,获取到的是你好所在的<a>标签。但是,获取<h2>标签下面的<a>标签时,获取的仍然是同一个<a>标签。

这样一来,在上图代码里面第15-20行就会重复执行两次。

为了提高代码的运行效率,我们引入缓存,记录每一个<a>标签的分析结果,如果发现一个<a>标签已经被分析了,就直接使用缓存的结果,避免重复分析。

于是,代码修改成下面这样:

图2

代码第18行的str(element)对应了这个节点的内存地址,如下图所示:

图3

这段代码看起来似乎没有什么问题,但在实际提取数据的时候,发现提取的结果不太正常。

薛定谔的 Element

为了调试这个问题,我对代码做了一下修改:

图4

可以看到,同一个 HTML 标签,之前缓存的结果竟然跟新提取的不一样。

于是,我想看看每次提取的时候,对应的 element 是哪个,但却发生了更诡异的事情,我们做一个看起来对代码不会有任何影响的改动:

图5

图4里面,我们直接把element_text_list缓存起来。图5里面,我们把[element_text_list, element]缓存起来,读取的时候,读取这个列表的下标为0的元素。也就是说,这个缓存的element我们根本不使用。

但奇怪的事情就这样发生了,问题消失了!在图4大量打印的同一个标签,缓存的数据跟提取的数据不一致!,在图5里面却一条都没有打印。这样修改以后,GNE 的提取的结果就正确了。

但为什么会发生这种事情呢?难道说跟缓存的结果有关系?那么我们把列表里面的 element改成其他数据看看:

图6

仅仅是把element改成了数字1,Bug 又出现了。

它似乎知道我在试图去观察它,当我尝试用代码去观察 element时,它就一切正常。当我不观察它时,它就会出问题。薛定谔的 element

看不见的手

遇事不决,量子力学。这个问题跟量子力学实际上没有关系。导致这个诡异情况发生的原因,是一个一直运行在 Python 里面,但是你常常忽略的机制——垃圾回收。

Python 会把不再使用的对象清理掉,从而释放内存。当我们执行一个 for 循环时:


for element in element_list:    a = element.xpath('//xxx')    b = element.xpath('.//text()')    c = 1 + 1

循环第一次执行的时候,生成第一个element对象,但是这个对象在循环第二次执行的时候就被新的element对象覆盖了。因为没有其他地方继续使用第一个 element 对象,它的引用计数归零,Python 的垃圾回收机制就会把它清理掉。它占用的内存空间也会被释放出来。

但如果换一种写法:


cache = []for element in element_list:    a = element.xpath('//xxx')    b = element.xpath('.//text()')    c = 1 + 1    cache.append(element)

由于列表cache中包含了对每个 element 对象的引用,导致第一次循环生成的element对象的引用计数不为0,垃圾回收机制不会回收它,它始终占用了一块内存区域。这块区域不会被其他数据使用。那么每次循环,新的element对象都会新申请一块内存区域来存放数据,于是就等价于每一个不同的 element 节点对应了不同的内存地址。

在示例代码里面,大家注意element_flag = str(element)这一行,它的值类似于<Element a at 0x1087ba638>,这里的十六进制数字0x1087ba638对应了这个对象在内存里面的地址。

一开始,我有一个不正确的假设,我以为str(element)的值,对应的 HTML 里面的每个节点。同一个节点,多次执行,结果都一样,不同的节点,多次执行,结果都不一样。

但实际上这是不正确的。因为如果前一个节点的内存区域被垃圾回收了,那么这个区域会被重新分配,新来的节点可能碰巧会放到这个地方,这就导致两个不同的 <a> 标签,当你执行str(element)时,他们打印出来的结果都是相同的。但是实际上他们的正文不一样。

而当我使用element_text_cache[element_flag] = [element_text_list, element]时,由于每个element对象不会被回收,于是就不会出现不同的节点互相覆盖的问题,所以它的工作就符合了预期。

解决问题

所以,bug 的根本原因在于,我不应该使用str(element)作为缓存的 Key,应该找一个跟 HTML 节点一一对应的东西来作为 Key。显然,使用 XPath 更好。

于是,修改代码,把element_flag改成 XPath:

图7

问题得以解决。

目录
相关文章
|
3天前
|
机器学习/深度学习 人工智能 算法
机械视觉:原理、应用及Python代码示例
机械视觉:原理、应用及Python代码示例
|
8天前
|
并行计算 C语言 开发者
优化Python代码的五大技巧
Python作为一种流行的编程语言,在各种应用场景中广泛使用。然而,随着项目规模的增长和需求的变化,Python代码的性能和可维护性也成为了关键问题。本文将介绍优化Python代码的五大技巧,帮助开发者提升代码效率和质量。
|
18天前
|
监控 Python
Python中的装饰器:提升代码灵活性与可读性
在Python编程中,装饰器是一种强大的工具,能够提升代码的灵活性和可读性。本文将介绍装饰器的基本概念、使用方法以及实际应用场景,帮助读者更好地理解和利用这一功能。
|
21天前
|
人工智能 数据可视化 数据挖掘
【python】Python航空公司客户价值数据分析(代码+论文)【独一无二】
【python】Python航空公司客户价值数据分析(代码+论文)【独一无二】
|
25天前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
3天前
|
存储 缓存 算法
优化Python代码性能的7个技巧
在日常的Python开发中,优化代码性能是一个重要的课题。本文介绍了7个实用的技巧,帮助开发者提高Python代码的执行效率,包括利用生成器表达式、使用适量的缓存、避免不必要的循环等。通过本文的指导,读者可以更好地理解Python代码性能优化的方法,提升自身的编程水平。
|
19天前
|
缓存 监控 算法
优化Python代码性能的10个技巧
提高Python代码性能是每个开发者都需要关注的重要问题。本文将介绍10个实用的技巧,帮助你优化Python代码,提升程序的运行效率和性能表现。无论是避免内存泄漏、减少函数调用次数,还是使用适当的数据结构,都能在不同场景下发挥作用,使你的Python应用更加高效稳定。
|
1天前
|
存储 开发者 Python
优化Python代码中的内存占用:实用技巧与最佳实践
本文将介绍如何优化Python代码中的内存占用,通过实用技巧和最佳实践,有效减少内存消耗,提升代码性能和可扩展性。
|
5天前
|
人工智能 Python
【Python实用技能】建议收藏:自动化实现网页内容转PDF并保存的方法探索(含代码,亲测可用)
【Python实用技能】建议收藏:自动化实现网页内容转PDF并保存的方法探索(含代码,亲测可用)
24 0
|
5天前
|
人工智能 Python
【AI大模型应用开发】【LangChain系列】实战案例1:用LangChain写Python代码并执行来生成答案
【AI大模型应用开发】【LangChain系列】实战案例1:用LangChain写Python代码并执行来生成答案
10 0