当我们在做数据分析的时候,可能会由于数据量过大导致内存不足。如果我们没有条件使用更高配置的电脑,也没有办法优化数据,那么我们可以先把计算的中间值存放在一个文本文件中。例如:
# 第一步计算分成中间数据 with open('temp.txt', 'w', encoding='utf-8') as f: f.write('中间数据') # 从内存中清空中间数据,腾出空间 # 后续计算 # 汇总数据 with open('temp.txt', 'r', encoding='utf-8') as f: 中间数据 = f.read() # 使用中间数据进一步计算
这种方案虽然有效,但是中间数据写成的临时文件如果不清理,时间一长就会占用大量硬盘空间。当然你也可以每一次都覆盖临时文件,这样它虽然不会堆积,但当你的分析程序已经停止的时候,临时文件还在硬盘上占用空间。
Python实际上早就考虑到了这个需求,专门有模块用于读写临时文件。
这个模块的名字就叫做 tempfile
。它的用法也非常简单:
from tempfile import TemporaryFile with TemporaryFile('w+t', encoding='utf-8') as f: # 生成中间数据 f.write('中间数据') f.write('另一部分中间数据') # 其他计算过程 # 下面开始读取临时文件 f.seek(0) f.read() # 退出with上下文,临时文件自动被删除
由于临时文件被关闭就会被删除,所以需要实现同时读写文件,因此文件模式为 w+t
。
临时文件也可以像 open
一样不使用上下文管理器:
from tempfile import TemporaryFile f = TemporaryFile('w+t', encoding='utf-8') # 生成中间数据 f.write('中间数据') f.write('另一部分中间数据') # 其他计算过程 # 下面开始读取临时文件 f.seek(0) f.read() # 关闭并自动删除临时文件 f.close()
使用 TemporaryFile
,你没法知道这个临时文件叫做什么名字。如果你想知道文件名,甚至想让另一个程序打开这个临时文件,那么你可以使用 NamedTemporaryFile
:
import redis from tempfile import NamedTemporaryFile with NamedTemporaryFile('w+t') as f: # 把文件名通过某种方式传给其他程序 client = redis.Redis() client.set('temp_file', f.name) # 后续操作
只要这个临时文件还没有被关闭,那么另一个程序就可以读取这个临时文件。