一文了解 CPython 中的垃圾收集器

简介: CPython 的垃圾收集器(简称 GC)是 Python 内置的为了解决循环引用问题的方法。默认情况下,它总是在后台运行,并且每隔一段时间就会发挥它的魔力,所以你不必担心循环引用物会堵塞你的内存。

CPython 中的垃圾收集器

CPython 的垃圾收集器(简称 GC)是 Python 内置的为了解决循环引用问题的方法。默认情况下,它总是在后台运行,并且每隔一段时间就会发挥它的魔力,所以你不必担心循环引用物会堵塞你的内存。


垃圾收集器被设计为从 CPython 的工作内存中找到并删除循环引用对象。它通过以下方式完成这一工作。


  1. 检测循环引用的对象
  2. 调用最终的 __del__ 方法
  3. 它从每个对象中删除指针(以此来解决循环问题),只有当循环在步骤 2 之后仍然是孤立的


在这个过程完成后,以前在循环中的每个对象现在的引用计数都是 0 ,因此此对象将从内存中删除。


虽然它是自动工作的,但实际上我们可以把它作为一个模块从标准库中导入。举例如下:

import gc


检测循环引用

CPython 的垃圾收集器会跟踪内存中存在的各种对象--但不是所有的对象。我们可以实例化一些对象,看看垃圾收集器是否会收集它们。

>>> gc.is_tracked("a string")
False
>>> gc.is_tracked(["a", "list"])
True


如果一个对象可以包含指针,这就使它有能力形成循环引用结构的一部分--而这正是垃圾检测器存在的目的,即检测和拆除。在 Python 中这样的对象通常被称为 "容器对象"。


所以,垃圾收集器需要知道任何有可能作为循环引用的一部分而存在的对象。字符串不能,所以 "一个字符串 "不会被垃圾收集器追踪。列表(正如我们已经看到的)能够包含指针,因此 ['a', 'list'] 被跟踪。


用户定义的类的任何实例也将被垃圾收集器跟踪,因为我们总是可以在它们身上设置任意的属性(指针)。

>>> Wade = MyNameClass("Wade")
>>> gc.is_tracked(Wade)
True


所以,垃圾收集器知道所有有可能形成循环引用的对象。它怎么知道是否已经形成循环引用呢?


它也知道每个对象中的所有指针,以及它们所指向的位置。我们可以看到这个动作。

>>> my_list = ["a", "list"]
>>> gc.get_referents(my_list)
['list', 'a']

get_referents 方法(也称为遍历方法)接收一个对象,并返回它所包含的对象指针的列表(它的引用)。因此,上面的列表包含指向其每个元素的指针,这些元素都是字符串。


让我们在一个对象的循环中看看 get_referents 方法(虽然还不是一个循环引用,因为这些对象仍然可以从命名空间中被访问)。

>>> jane = MyNamedClass("Jane")
>>> bob = MyNamedClass("Bob")
>>> jane.friend = bob
>>> bob.friend = jane
>>> gc.get_referents(bob)
[{'name': 'bob', 'friend': <__main__.MyNamedClass object at 0x7ff29a095d60>}, <class '__main__

在这个循环中,我们可以看到由 bob 指向的对象包含指向以下内容的指针:它的属性字典,包含 bob 的名字 (bob) 和它的朋友 (同样由 jane 指向的 MyNamedClass 实例) 。bob 对象也有一个指向类对象本身的指针,因为 bob.class 将返回那个类对象。


当垃圾收集器运行时,它检查它所知道的每个对象(也就是当你调用  gc.is_tracked 时返回 True 的任何对象)是否可以从命名空间到达。它通过跟踪来自命名空间的所有指针,以及这些指针所指向的对象中的指针,以此类推,直到它建立起所有可从代码中访问的东西的整个视图。


如果在做完这些之后,GC 发现存在一些不能从命名空间到达的对象,那么它可以把这些对象清除掉。


记住,任何仍在内存中的对象必须有一个非零的引用计数,否则它们会因为引用计数而被删除。对于那些无法到达但仍有非零引用计数的对象,它们必须是循环引用的一部分,这就是为什么我们如此关心这些发生的可能性。


让我们回到引用循环,jane 和 bob,通过从命名空间中移除指针,把这个循环变成一个循环的隔离。

>>> del jane
>>> del bob

现在,我们已经了解了垃圾收集器所要解决的确切情况。我们可以通过调用 gc.collect() 来触发手动垃圾收集。

>>> gc.collect()
Deleting Bob!
Deleting Jane!
4

默认情况下,垃圾收集器会每隔一段时间自动执行这个动作(因为越来越多的对象在 CPython 运行时被创建和销毁)。


在上面的代码片段中,我们看到的输出包含了来自 MyNamClass 的 __del__ 方法的打印语句,在最后有一个数字--在这个例子中,是 4。 这个数字是由垃圾收集器本身输出的,它告诉我们有多少对象被移除。

相关文章
|
3月前
|
存储 缓存 算法
Very Heavy ! Java虚拟机的垃圾回收处理与垃圾收集算法
Very Heavy ! Java虚拟机的垃圾回收处理与垃圾收集算法
37 0
|
8天前
|
监控 Java 数据处理
Python内存管理:引用计数与垃圾回收
Python内存管理:引用计数与垃圾回收
20 0
|
3月前
|
算法 Java
Java内存管理,什么是垃圾回收机制(Garbage Collection)?
Java内存管理,什么是垃圾回收机制(Garbage Collection)?
34 1
|
9月前
|
算法 Java 对象存储
深入理解JVM系列教程(04) - 垃圾回收机制(二) - 垃圾回收算法
深入理解JVM系列教程(04) - 垃圾回收机制(二) - 垃圾回收算法
188 0
|
11月前
|
Java 程序员 Python
Python垃圾回收机制详解:引用计数与循环垃圾收集器
Python垃圾回收机制详解:引用计数与循环垃圾收集器
206 0
|
Java
Lua常用库,垃圾回收
Lua常用库,垃圾回收
40 0
|
算法 Java
JVM-06垃圾收集Garbage Collection(下)【垃圾收集器】
JVM-06垃圾收集Garbage Collection(下)【垃圾收集器】
65 0
|
算法 Java
JVM-05垃圾收集Garbage Collection(中)【垃圾收集算法】
JVM-05垃圾收集Garbage Collection(中)【垃圾收集算法】
60 0
|
Java Python
什么是 Python 垃圾回收机制中的引用计数
Python 中的 __del__ 魔法方法,也被称为对象的终结者,是一个在对象即将被从内存中移除之前被调用的方法。它实际上并不做从内存中删除对象的工作,我们将在后面看到它是如何发生的。相反,这个方法是用来做任何在对象被移除前需要发生的清理工作。
什么是 Python 垃圾回收机制中的引用计数
|
算法 Java Go
深入理解 Python 内存管理与垃圾回收(下)
再我们看文章之前,先思考一下:如果是你设计,会怎么进行内存管理?我们一起了解看看 Python 是怎么设计的。
深入理解 Python 内存管理与垃圾回收(下)