Python 对象的序列和反序列化

简介: 在本文中,我们了解了 Python 中的 pickling(对象序列化) 和 unpickling (反序列化)操作,这些操作对于存储对象以供以后使用很有用。介绍了内置的 pickle 模块提供了诸如 load()、loads()、dump()、dumps() 之类的方法,用于将 Python 对象与字节流之间的相互转换。

1 概念

将对象转换为可保存状态(例如字节流、文本表示等)称为序列化,而反序列化将数据从上述格式转换回对象。

序列化格式会将内存中重建对象所需的所有信息保留在与序列化时相同的状态。

在 Python 中提供了一个 pickle 模块,pickle 模块实现了二进制协议。支持我们的对象数据的序列和反序列化。

2 存储 Python 原生对象:pickle 模块

pickle 模块能够让我们直接在文件中存储几乎任何 Python 对象的高级工具,同时不需要我们对字符串进行来回转换。它像是超级通用的数据格式化和解析工具。

pickle 包可用于执行 pickling 和 unpickling 操作。Python 中的 pickling 用于描述将 Python 对象转换为字节流的过程,也被称为序列化(serialization 或者 marshalling、flattening)。

unpickling 反之,将字节流(来自二进制文件或字节对象)转换为对象结构,这个过程又被叫反序列化(De-serialization)。

Python 的 pickle 模块基本上由四个方法组成:

  • dump()
pickle.dump(obj, file, protocol=None, *, fix_imports=True, buffer_callback=None)
  • dumps()
pickle.dumps(obj, protocol=None, *, fix_imports=True, buffer_callback=None)
  • load()
pickle.load(file, *, fix_imports=True, encoding="ASCII", errors="strict", buffers=None)
  • loads()
pickle.loads(bytes_object, *, fix_imports=True, encoding="ASCII", errors="strict", buffers=None)

序列化到字符串

前两个方法是在 pickling 过程中使用的,另外两个是在 unpickling 过程中使用的。dump()dumps()的唯一区别是,前者创建一个包含序列化结果的文件,而后者则返回一个字符串。

为了区分 dumps()dump(),记住函数名后面的 s 代表字符串是很有帮助的。同样的概念也适用于loads()load()。第一个函数对一个字符串进行操作。第二个读取一个文件以开始解压过程。

假如有如下的例子:

importpicklemy_dic= {"k1", 20, "k2", 22}
str_dic=pickle.dumps(my_dic)
print("序列化后 str_dic: ", str_dic)
my_dic2=pickle.loads(str_dic)
print("反序列化的 my_dic2: ", my_dic2)

输出结果:

$ python pickle_dumps.py 
序列化后 str_dic:  b'\x80\x04\x95\x13\x00\x00\x00\x00\x00\x00\x00\x8f\x94(\x8c\x02k2\x94\x8c\x02k1\x94K\x14K\x16\x90.'
反序列化的 my_dic2:  {'k2', 'k1', 20, 22}

序列化到文件

importpicklestudents= {
"Name": ["张三", "法外狂徒", "张麻子"],
"Major": ["社会学", "法律", "经济"]
}
print(students)

运行结果:

{'Name': ['张三', '法外狂徒', '张麻子'], 'Major': ['社会学', '法律', '经济']}

让我们尝试将学生对象 pickling 到二进制文件中。我们可以使用 dump() 函数来做到这一点。它需要两个参数:被 pickled 的对象和要写入数据的 File 对象。

以下代码将数据 pickle 到一个新文件 stu.txt,该文件将在脚本运行的同一目录中创建:

importpicklestudents= {
"Name": ["张三", "法外狂徒", "张麻子"],
"Major": ["社会学", "法律", "经济"]
}
print(students)
stu_file=open('stu.txt', 'wb')
pickle.dump(students, stu_file)
stu_file.close()

运行完后,则会在同目录下多一个 stu.txt 文件,如下:

网络异常,图片无法展示
|

常规文本编辑器无法查看创建的文件的内容,因为它是二进制数据,并不意味着以人类可读的格式存储。要读取此信息,我们必须解压缩或反序列化此数据。我们可以使用 load() 函数来做到这一点!

load() 函数读取 pickled 文件的内容并返回通过读取数据构造的对象。对象的类型及其状态取决于文件的内容。

由于我们已经保存了一个包含学生姓名和专业的字典:这个具有相同条目的对象被重建。

让我们将刚刚创建的 pickled 文件 stu.txt 读回 Python 对象并打印其内容,新建一个 Python 文件,写入如下代码:

importpicklestu_file=oppen("stu.txt", "rb")
stu_data=pickle.load(stu_file)
stu_file.close()
print("学生数据:", stu_data)

运行结果:

$ python3 unpickledtest.py
学生数据: {'Name': ['张三', '法外狂徒', '张麻子'], 'Major': ['社会学', '法律', '经济']}

3 pickle 模块的优缺点

优点

  • 可以用来存储 Python对象。我们不需要一次又一次地构造相同的对象。我们将创建一个对象,然后将其保存到磁盘中(pickling),以后再从磁盘中加载这个对象(unpickling),而不需要再次创建这个对象。
  • 在机器学习中非常有用。一个机器学习模型是在一个非常大的数据集上训练的,而训练一个模型需要消耗大量的时间。因此,如果我们必须训练相同的模型,这将不是一个好的选择。为了避免或减少时间和艰苦的工作,pickling 是非常有用的。我们只需要训练一次我们的模型,然后将其保存在本地磁盘中,当我们需要测试我们的模型时,我们可以直接从磁盘中加载它,而不需要再次训练它。
  • Python 的 pickle 模块比 json 模块可以序列化更多的类型。然而,并不是所有的东西都可以被picklable。不可 pickable 对象的列表包括数据库连接、开放网络套接字正在运行的线程

缺点

  • 缺乏安全性。避免从未知来源 unpickling 数据,因为它们可能包含恶意的或错误的数据。

根据官方文档:“pickle 模块并不安全,只能 unpickling 你信任的数据。黑客有可能构建恶意的 pickled 数据,然后在解压过程中执行任意代码。不要 unpickle 可能来自不信任的来源或可能被篡改的数据。如果你需要确保数据没有被篡改,请考虑用hmac 签名。如果你正在处理不受信任的数据,更安全的序列化格式,那么 json 可能更合适。”

  • 兼容性太差。由于它只针对 Python,所以它不能保证跨语言的兼容性。甚至不同的 Python 版本之间也不兼容。这意味着在 Python 2.x 版本中完成的 pickling 可能在 Python 3.x 版本中无法工作。

4 扩展 pickle 模块的 dill 库

dill 模块扩展了 pickle 的功能。根据官方文档,它可以让你序列化一些不太常见的类型,如带 yield函数嵌套函数lambdas 和其他许多类型。

为了测试这个模块,你可以尝试 pickle 一个 lambda 函数。

importpicklesquare=lambdax: x*xmy_pickle=pickle.dumps(square)

运行上述代码,会得到一个异常,因为 Python pickle 模块不能序列化一个 lambda 函数。

网络异常,图片无法展示
|

如果用 dill 库来序列化,如下:

importdillsquare=lambdax: x*xmy_pickle=dill.dumps(square)
print(my_pickle)

此时可以看到不会报错:

$ python dill_test.py 
b'\x80\x04\x95\xdb\x00\x00\x00\x00\x00\x00\x00\x8c\ndill._dill\x94\x8c\x10_create_function\x94\x93\x94(h\x00\x8c\x0c_create_code\x94\x93\x94(K\x01K\x00K\x00K\x01K\x02KCC\x08|\x00|\x00\x14\x00S\x00\x94N\x85\x94)\x8c\x01x\x94\x85\x94\x8c/E:\\Coding Workspaces\\PythonScripts\\dill_test.py\x94\x8c\x08<lambda>\x94K\x03C\x00\x94))t\x94R\x94c__builtin__\n__main__\nh\nNNt\x94R\x94}\x94}\x94\x8c\x0f__annotations__\x94}\x94s\x86\x94b.'

5 总结

在本文中,我们了解了 Python 中的 pickling(对象序列化) 和 unpickling (反序列化)操作,这些操作对于存储对象以供以后使用很有用。介绍了内置的 pickle 模块提供了诸如 load()loads()dump()dumps() 之类的方法,用于将 Python 对象与字节流之间的相互转换。

因为 Python 中一切皆对象的特点,所以 Python 中的元组、字典、列表,甚至 Python 类和函数也可以被序列化和反序列化。但它可能不支持跨语言、多 Python 版本的兼容性差。

另外,为了安全性,也应避免从未知来源解压,因为它们可能包含恶意的、错误的数据。



参考链接:

相关文章
|
1月前
|
存储 数据处理 Python
Python如何显示对象的某个属性的所有值
本文介绍了如何在Python中使用`getattr`和`hasattr`函数来访问和检查对象的属性。通过这些工具,可以轻松遍历对象列表并提取特定属性的所有值,适用于数据处理和分析任务。示例包括获取对象列表中所有书籍的作者和检查动物对象的名称属性。
33 2
|
1月前
|
缓存 监控 算法
Python内存管理:掌握对象的生命周期与垃圾回收机制####
本文深入探讨了Python中的内存管理机制,特别是对象的生命周期和垃圾回收过程。通过理解引用计数、标记-清除及分代收集等核心概念,帮助开发者优化程序性能,避免内存泄漏。 ####
55 3
|
2月前
|
JSON 数据格式 索引
Python中序列化/反序列化JSON格式的数据
【11月更文挑战第4天】本文介绍了 Python 中使用 `json` 模块进行序列化和反序列化的操作。序列化是指将 Python 对象(如字典、列表)转换为 JSON 字符串,主要使用 `json.dumps` 方法。示例包括基本的字典和列表序列化,以及自定义类的序列化。反序列化则是将 JSON 字符串转换回 Python 对象,使用 `json.loads` 方法。文中还提供了具体的代码示例,展示了如何处理不同类型的 Python 对象。
|
2月前
|
存储 安全 Java
Java编程中的对象序列化与反序列化
【10月更文挑战第22天】在Java的世界里,对象序列化和反序列化是数据持久化和网络传输的关键技术。本文将带你了解如何在Java中实现对象的序列化与反序列化,并探讨其背后的原理。通过实际代码示例,我们将一步步展示如何将复杂数据结构转换为字节流,以及如何将这些字节流还原为Java对象。文章还将讨论在使用序列化时应注意的安全性问题,以确保你的应用程序既高效又安全。
|
3月前
|
JSON 前端开发 数据格式
前端的全栈之路Meteor篇(五):自定义对象序列化的EJSON介绍 - 跨设备的对象传输
EJSON是Meteor框架中扩展了标准JSON的库,支持更多数据类型如`Date`、`Binary`等。它提供了序列化和反序列化功能,使客户端和服务器之间的复杂数据传输更加便捷高效。EJSON还支持自定义对象的定义和传输,通过`EJSON.addType`注册自定义类型,确保数据在两端无缝传递。
|
3月前
|
存储 编译器 索引
Python 序列类型(2)
【10月更文挑战第8天】
Python 序列类型(2)
|
3月前
|
存储 C++ 索引
Python 序列类型(1)
【10月更文挑战第8天】
|
3月前
|
存储 Java
Java编程中的对象序列化与反序列化
【10月更文挑战第9天】在Java的世界里,对象序列化是连接数据持久化与网络通信的桥梁。本文将深入探讨Java对象序列化的机制、实践方法及反序列化过程,通过代码示例揭示其背后的原理。从基础概念到高级应用,我们将一步步揭开序列化技术的神秘面纱,让读者能够掌握这一强大工具,以应对数据存储和传输的挑战。
|
2月前
|
存储 缓存 NoSQL
一篇搞懂!Java对象序列化与反序列化的底层逻辑
本文介绍了Java中的序列化与反序列化,包括基本概念、应用场景、实现方式及注意事项。序列化是将对象转换为字节流,便于存储和传输;反序列化则是将字节流还原为对象。文中详细讲解了实现序列化的步骤,以及常见的反序列化失败原因和最佳实践。通过实例和代码示例,帮助读者更好地理解和应用这一重要技术。
66 0