垃圾收集 (GC) 是一种自动内存管理技术,它可以回收不再使用的对象所占用的内存。在 Python 中,GC 由称为引用计数的机制实现。
引用计数
Python 中的每个对象都有一个引用计数器,它跟踪指向该对象的引用数。当一个对象被创建时,其引用计数器被设置为 1。每当一个变量或数据结构引用该对象时,其引用计数器就会增加。当引用该对象的变量或数据结构被销毁时,其引用计数器就会减少。
当一个对象的引用计数器变为 0 时,这意味着不再有变量或数据结构引用该对象,该对象就被视为垃圾。GC 会定期运行,回收所有垃圾对象的内存。
垃圾收集循环
GC 循环是一个后台进程,它定期运行以查找和回收垃圾对象。GC 循环的工作原理如下:
- 标记阶段:GC 循环从根对象开始(例如全局变量和栈帧中的局部变量),并标记所有可达的对象。可达对象是指从根对象可以访问的对象。
- 清除阶段:GC 循环遍历所有未标记的对象,并将其视为垃圾。GC 循环释放这些对象的内存,并将它们从程序的内存空间中移除。
引用循环
引用循环会阻止 GC 回收对象,即使它们不再被使用。引用循环是指两个或多个对象相互引用,从而导致它们的引用计数器永远不为 0。
例如:
import gc
class MyClass:
def __init__(self, other):
self.other = other
# 创建两个相互引用的对象
obj1 = MyClass(None)
obj2 = MyClass(obj1)
# 设置两个对象的引用为 None,但它们仍然相互引用
obj1.other = None
obj2.other = None
# 此时,obj1 和 obj2 都应该被回收,但由于引用循环,它们不会被回收
gc.collect() # 不会回收 obj1 和 obj2
弱引用
为了解决引用循环的问题,Python 提供了弱引用的概念。弱引用不会增加对象的引用计数器,并且在 GC 循环期间会被忽略。这使得 GC 可以回收具有弱引用的对象,即使它们仍然被其他对象引用。
弱引用可以使用 weakref
模块中的 WeakReference
类来创建。
import weakref
class MyClass:
def __init__(self, other):
self.other = weakref.ref(other)
# 创建两个相互引用的对象
obj1 = MyClass(None)
obj2 = MyClass(obj1)
# 设置两个对象的引用为 None,但它们仍然通过弱引用相互引用
obj1.other = None
obj2.other = None
# 此时,obj1 和 obj2 都可以被回收
gc.collect() # 将回收 obj1 和 obj2
禁用垃圾收集
在某些情况下,可能需要禁用 Python 的 GC。这可以通过设置 PYTHONOPTIMIZE
环境变量为 2 来实现。
PYTHONOPTIMIZE=2 python my_script.py
禁用 GC 会提高程序的性能,但也会增加内存泄漏的风险。因此,不建议在生产环境中禁用 GC。
结论
Python 中的垃圾收集是一种自动内存管理机制,它可以回收不再使用的对象所占用的内存。GC 通过引用计数来实现,并且使用引用循环和弱引用来处理引用循环。虽然 GC 可以极大地简化内存管理,但理解其工作原理对于编写高效且无内存泄漏的 Python 程序非常重要。