1 概念
将对象转换为可保存状态(例如字节流、文本表示等)称为序列化,而反序列化将数据从上述格式转换回对象。
序列化格式会将内存中重建对象所需的所有信息保留在与序列化时相同的状态。
在 Python 中提供了一个 pickle 模块,pickle 模块实现了二进制协议。支持我们的对象数据的序列和反序列化。
2 存储 Python 原生对象:pickle 模块
pickle 模块能够让我们直接在文件中存储几乎任何 Python 对象的高级工具,同时不需要我们对字符串进行来回转换。它像是超级通用的数据格式化和解析工具。
pickle 包可用于执行 pickling 和 unpickling 操作。Python 中的 pickling
用于描述将 Python 对象转换为字节流的过程,也被称为序列化(serialization 或者 marshalling、flattening)。
unpickling
反之,将字节流(来自二进制文件或字节对象)转换为对象结构,这个过程又被叫反序列化(De-serialization)。
Python 的 pickle 模块基本上由四个方法组成:
dump()
pickle.dump(obj, file, protocol=None, *, fix_imports=True, buffer_callback=None)
dumps()
pickle.dumps(obj, protocol=None, *, fix_imports=True, buffer_callback=None)
load()
pickle.load(file, *, fix_imports=True, encoding="ASCII", errors="strict", buffers=None)
loads()
pickle.loads(bytes_object, *, fix_imports=True, encoding="ASCII", errors="strict", buffers=None)
序列化到字符串
前两个方法是在 pickling 过程中使用的,另外两个是在 unpickling 过程中使用的。dump()
和 dumps()
的唯一区别是,前者创建一个包含序列化结果的文件,而后者则返回一个字符串。
为了区分 dumps()
和 dump()
,记住函数名后面的 s 代表字符串是很有帮助的。同样的概念也适用于loads()
和 load()
。第一个函数对一个字符串进行操作。第二个读取一个文件以开始解压过程。
假如有如下的例子:
importpicklemy_dic= {"k1", 20, "k2", 22} str_dic=pickle.dumps(my_dic) print("序列化后 str_dic: ", str_dic) my_dic2=pickle.loads(str_dic) print("反序列化的 my_dic2: ", my_dic2)
输出结果:
$ python pickle_dumps.py 序列化后 str_dic: b'\x80\x04\x95\x13\x00\x00\x00\x00\x00\x00\x00\x8f\x94(\x8c\x02k2\x94\x8c\x02k1\x94K\x14K\x16\x90.' 反序列化的 my_dic2: {'k2', 'k1', 20, 22}
序列化到文件
importpicklestudents= { "Name": ["张三", "法外狂徒", "张麻子"], "Major": ["社会学", "法律", "经济"] } print(students)
运行结果:
{'Name': ['张三', '法外狂徒', '张麻子'], 'Major': ['社会学', '法律', '经济']}
让我们尝试将学生对象 pickling 到二进制文件中。我们可以使用 dump()
函数来做到这一点。它需要两个参数:被 pickled 的对象和要写入数据的 File 对象。
以下代码将数据 pickle 到一个新文件 stu.txt,该文件将在脚本运行的同一目录中创建:
importpicklestudents= { "Name": ["张三", "法外狂徒", "张麻子"], "Major": ["社会学", "法律", "经济"] } print(students) stu_file=open('stu.txt', 'wb') pickle.dump(students, stu_file) stu_file.close()
运行完后,则会在同目录下多一个 stu.txt 文件,如下:
常规文本编辑器无法查看创建的文件的内容,因为它是二进制数据,并不意味着以人类可读的格式存储。要读取此信息,我们必须解压缩或反序列化此数据。我们可以使用 load()
函数来做到这一点!
load()
函数读取 pickled 文件的内容并返回通过读取数据构造的对象。对象的类型及其状态取决于文件的内容。
由于我们已经保存了一个包含学生姓名和专业的字典:这个具有相同条目的对象被重建。
让我们将刚刚创建的 pickled 文件 stu.txt 读回 Python 对象并打印其内容,新建一个 Python 文件,写入如下代码:
importpicklestu_file=oppen("stu.txt", "rb") stu_data=pickle.load(stu_file) stu_file.close() print("学生数据:", stu_data)
运行结果:
$ python3 unpickledtest.py 学生数据: {'Name': ['张三', '法外狂徒', '张麻子'], 'Major': ['社会学', '法律', '经济']}
3 pickle 模块的优缺点
优点
- 可以用来存储 Python对象。我们不需要一次又一次地构造相同的对象。我们将创建一个对象,然后将其保存到磁盘中(pickling),以后再从磁盘中加载这个对象(unpickling),而不需要再次创建这个对象。
- 在机器学习中非常有用。一个机器学习模型是在一个非常大的数据集上训练的,而训练一个模型需要消耗大量的时间。因此,如果我们必须训练相同的模型,这将不是一个好的选择。为了避免或减少时间和艰苦的工作,pickling 是非常有用的。我们只需要训练一次我们的模型,然后将其保存在本地磁盘中,当我们需要测试我们的模型时,我们可以直接从磁盘中加载它,而不需要再次训练它。
- Python 的 pickle 模块比 json 模块可以序列化更多的类型。然而,并不是所有的东西都可以被picklable。不可 pickable 对象的列表包括数据库连接、开放网络套接字、正在运行的线程。
缺点
- 缺乏安全性。避免从未知来源 unpickling 数据,因为它们可能包含恶意的或错误的数据。
根据官方文档:“pickle 模块并不安全,只能 unpickling 你信任的数据。黑客有可能构建恶意的 pickled 数据,然后在解压过程中执行任意代码。不要 unpickle 可能来自不信任的来源或可能被篡改的数据。如果你需要确保数据没有被篡改,请考虑用hmac 签名。如果你正在处理不受信任的数据,更安全的序列化格式,那么 json 可能更合适。”
- 兼容性太差。由于它只针对 Python,所以它不能保证跨语言的兼容性。甚至不同的 Python 版本之间也不兼容。这意味着在 Python 2.x 版本中完成的 pickling 可能在 Python 3.x 版本中无法工作。
4 扩展 pickle 模块的 dill 库
dill
模块扩展了 pickle 的功能。根据官方文档,它可以让你序列化一些不太常见的类型,如带 yield 的函数、嵌套函数、lambdas 和其他许多类型。
为了测试这个模块,你可以尝试 pickle 一个 lambda 函数。
importpicklesquare=lambdax: x*xmy_pickle=pickle.dumps(square)
运行上述代码,会得到一个异常,因为 Python pickle 模块不能序列化一个 lambda 函数。
如果用 dill
库来序列化,如下:
importdillsquare=lambdax: x*xmy_pickle=dill.dumps(square) print(my_pickle)
此时可以看到不会报错:
$ python dill_test.py b'\x80\x04\x95\xdb\x00\x00\x00\x00\x00\x00\x00\x8c\ndill._dill\x94\x8c\x10_create_function\x94\x93\x94(h\x00\x8c\x0c_create_code\x94\x93\x94(K\x01K\x00K\x00K\x01K\x02KCC\x08|\x00|\x00\x14\x00S\x00\x94N\x85\x94)\x8c\x01x\x94\x85\x94\x8c/E:\\Coding Workspaces\\PythonScripts\\dill_test.py\x94\x8c\x08<lambda>\x94K\x03C\x00\x94))t\x94R\x94c__builtin__\n__main__\nh\nNNt\x94R\x94}\x94}\x94\x8c\x0f__annotations__\x94}\x94s\x86\x94b.'
5 总结
在本文中,我们了解了 Python 中的 pickling(对象序列化) 和 unpickling (反序列化)操作,这些操作对于存储对象以供以后使用很有用。介绍了内置的 pickle 模块提供了诸如 load()
、loads()
、dump()
、dumps()
之类的方法,用于将 Python 对象与字节流之间的相互转换。
因为 Python 中一切皆对象的特点,所以 Python 中的元组、字典、列表,甚至 Python 类和函数也可以被序列化和反序列化。但它可能不支持跨语言、多 Python 版本的兼容性差。
另外,为了安全性,也应避免从未知来源解压,因为它们可能包含恶意的、错误的数据。
参考链接: