Python的数据序列化「Json & Pickle」

简介:


在介绍Python的数据序列化模块「Json & Pickle」之前,我们先来看看为什么需要数据序列化,什么是数据序列化。

为什么需要数据序列化,我认为有如下两种原因:

一个原因是将对象(一切皆对象)的状态保持在存储媒介(硬盘、网盘......)中,以便可以在以后重新创建精确的副本,相当于镜像的概念,比如我们平时利用VMware虚拟机中的挂起功能,这个挂起功能就是利用数据的序列化,把虚拟机当前的状态序列化保存在本地磁盘的文件中,然后恢复的时候只需反序列化,把状态恢复即可。

另一个原因是通过值将对象从一个应用程序域发送到另一个应用程序域中。例如,你利用Python监控采集程序采集到的数据想传送给Zabbix处理。当两个进程在进行远程通信时,彼此可以发送各种类型的数据。无论是何种类型的数据,都会以二进制序列的形式在网络上传送。发送方需要把这个对象转换为字节序列,才能在网络上传送;接收方则需要把字节序列再恢复为对象。

序列化和反序列化:

  • 序列化: 将数据结构或对象转换成二进制串的过程。
  • 反序列化:将在序列化过程中所生成的二进制串转换成数据结构或者对象的过程。

序列化的目的就是为了跨进程传递格式化数据和保存某个时刻的状态。

什么是数据序列化:

数据序列化就是将对象或者数据结构转化成特定的格式,使其可在网络中传输,或者可存储在内存或者文件中。反序列化则是相反的操作,将对象从序列化数据中还原出来。而对象序列化后的数据格式可以是二进制,可以是XML,也可以是JSON等任何格式。对象/数据序列化的重点在于数据的交换和传输,例如在远程调用技术(如EJB,XML-RPC, Web Service),或者在GUI控件开发(JavaBean)等等。

清楚了数据格式化的必要和简单认识了什么是数据格式化之后,我们就来看看Python中两个数据格式化模块的使用。

Json Module

Json:用于字符串和 python数据类型间进行转换;

Json模块提供了四个功能:dumps、dump、loads、load

1.dumps把数据类型转换成字符串

2.dump把数据类型转换成字符串并存储在文件中

3.loads把字符串转换成数据类型

4.load把文件打开从字符串转换成数据类型

实例如下:


 
 
  1. #!/usr/bin/env python3 
  2. # _*_coding:utf-8_*_ 
  3. # Author: Lucky.chen 
  4.  
  5. import json 
  6.  
  7. info = {'1MinLoad': 5, 'MemUse': '5G', 'DiskUse': '80G'} 
  8.  
  9. print('dumps 操作之前数据类型: %s' % type(info)) 
  10. JsonInfo = json.dumps(info) 
  11. print(JsonInfo) 
  12. # dumps 将数据通过特殊的形式转换为所有程序语言都识别的字符串 
  13. print('dumps 操作之后数据类型: %s' % type(JsonInfo)) 
  14.  
  15. # loads 将字符串通过特殊的形式转为python是数据类型  (将字符串转为字典) 
  16. NewInfo = json.loads(JsonInfo) 
  17. print('loads 操作之后数据类型为: %s' % type(NewInfo)) 
  18.  
  19. print('分割线'.center(50, '-')) 
  20.  
  21. # dump 将数据通过特殊的形式转换为所有语言都识别的字符串并写入文件 
  22. with open('SystemInfo.txt', 'w') as f: 
  23.     json.dump(info, f) 
  24.     print('dump file end!!') 
  25.  
  26. # load 从文件读取字符串并转换为python的数据类型 
  27. with open('SystemInfo.txt', 'r') as f: 
  28.     LoadInfo = json.load(f) 
  29.     print('load file end, data type is %s' % type(LoadInfo), LoadInfo) 

结果如下:


 
 
  1. dumps 操作之前数据类型: <class 'dict'> 
  2. {"MemUse": "5G", "DiskUse": "80G", "1MinLoad": 5} 
  3. dumps 操作之后数据类型: <class 'str'> 
  4. loads 操作之后数据类型为: <class 'dict'> 
  5. -----------------------分割线------------------------ 
  6. dump file end!! 
  7. load file end, data type is <class 'dict'> {'MemUse': '5G', '1MinLoad': 5, 'DiskUse' 

一个错误案例如下:


 
 
  1. #!/usr/bin/env python3 
  2. # _*_coding:utf-8_*_ 
  3. # Author: Lucky.chen 
  4.  
  5. import json 
  6.  
  7.  
  8. def test(): 
  9.     print('Test Func') 
  10.  
  11. info = {'Name': 'crh', 'age': 18, 'Func': test} 
  12.  
  13. json.dumps(info) 

结果:


 
 
  1. raise TypeError(repr(o) + " is not JSON serializable") 
  2. ypeError: <function test at 0x108e7a0d0> is not JSON serializable 

如上可知函数不能被json序列化。

Pickle Module

pickle,用于python特有的类型 和 python的数据类型间进行转换

Pickle模块同样提供了四个功能:dumps、dump、loads、load

1.dumps把数据类型转换成字符串

2.dump把数据类型转换成字符串并存储在文件中

3.oads把字符串转换成数据类型

4.load把文件打开从字符串转换成数据类型

Pickle可以序列化一些较复杂的数据,和json的区别在于pickle序列化的时候,存放的是二进制的文件,所以打开一个文件的时候,我们要以二进制的格式打开。

实例如下:


 
 
  1. #!/usr/bin/env python3 
  2. # _*_coding:utf-8_*_ 
  3. # Author: Lucky.chen 
  4.  
  5. import pickle 
  6.  
  7.  
  8. def test(name): 
  9.     print('%s write Test Func' % name) 
  10.  
  11. info = {'Name': 'crh', 'age': 18, 'Func': test} 
  12.  
  13. print('dumps 之前数据的类型为: %s' % type(info)) 
  14.  
  15. # pickle.dumps 将数据通过特殊的形式转换为只有python语言认识bytes类型(Python2.*中是字符串类型) 
  16. NewInfo = pickle.dumps(info) 
  17. print('dumps result is %s, data type is %s' % (NewInfo, type(NewInfo))) 
  18.  
  19. # pickle.loads 将bytes通过特殊的形式转为python是数据类型 
  20. LoadInfo = pickle.loads(NewInfo) 
  21. print('loads result is %s, data type is %s' % (LoadInfo, type(LoadInfo))) 
  22. LoadInfo['Func']('crh') 
  23.  
  24. print('分割线'.center(50, '-')) 
  25.  
  26. # pickle.dump 将数据通过特殊的形式转换为只有python语言认识的字符串,并写入文件 
  27. with open('pickle.rb', 'wb') as f: 
  28.     pickle.dump(info, f) 
  29.  
  30. # pickle.load 从文件读取只有python语言认识的字符串并转换为python的数据类型 
  31. with open('pickle.rb', 'rb') as f: 
  32.     Info = pickle.load(f) 
  33.  
  34. print(Info, 'type is %s' % type(Info)) 

结果如下:


 
 
  1. dumps 之前数据的类型为: <class 'dict'> 
  2. dumps result is b'\x80\x03}q\x00(X\x03\x00\x00\x00ageq\x01K\x12X\x04\x00\x00\x00Nameq\x02X\x03\x00\x00\x00crhq\x03X\x04\x00\x00\x00Funcq\x04c__main__\ntest\nq\x05u.', data type is <class 'bytes'> 
  3. loads result is {'age': 18, 'Name': 'crh', 'Func': <function test at 0x1032f10d0>}, data type is <class 'dict'> 
  4. crh write Test Func 
  5. -----------------------分割线------------------------ 
  6. {'age': 18, 'Name': 'crh', 'Func': <function test at 0x1032f10d0>} type is <class 'di 

总结

很多情况下不同的程序之间传送数据我们一般通过文件的方式,但是这个方法是最原始的,而dumps可以直接让数据格式化传送给对方,但是不是所有的程序都是python的,所以只利用pickle是不现实的,比如一个python的程序需要发送一段数据给一个java程序开发的应用,这时候很多内存数据的交换,就得用json了。

并且josn能dump的结果更可读,那么有人就问了,那还用pickle做什么不直接用josn,是这样的josn只能把常用的数据类型序列化(列表、字典、列表、字符串、数字、),比如日期格式、类对象!josn就不行了。

为什么他不能序列化上面的东西呢?因为josn是跨语言的!注定了它只能规范出一些通用的数据类型的格式,统一标准。


作者:采菊篱下

来源:51CTO

相关文章
|
23天前
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
|
21天前
|
数据采集 分布式计算 大数据
构建高效的数据管道:使用Python进行ETL任务
在数据驱动的世界中,高效地处理和移动数据是至关重要的。本文将引导你通过一个实际的Python ETL(提取、转换、加载)项目,从概念到实现。我们将探索如何设计一个灵活且可扩展的数据管道,确保数据的准确性和完整性。无论你是数据工程师、分析师还是任何对数据处理感兴趣的人,这篇文章都将成为你工具箱中的宝贵资源。
|
1月前
|
传感器 物联网 开发者
使用Python读取串行设备的温度数据
本文介绍了如何使用Python通过串行接口(如UART、RS-232或RS-485)读取温度传感器的数据。详细步骤包括硬件连接、安装`pyserial`库、配置串行端口、发送请求及解析响应等。适合嵌入式系统和物联网应用开发者参考。
53 3
|
1月前
|
图形学 Python
SciPy 空间数据2
凸包(Convex Hull)是计算几何中的概念,指包含给定点集的所有凸集的交集。可以通过 `ConvexHull()` 方法创建凸包。示例代码展示了如何使用 `scipy` 库和 `matplotlib` 绘制给定点集的凸包。
31 1
|
1月前
|
JSON 数据格式 索引
Python中序列化/反序列化JSON格式的数据
【11月更文挑战第4天】本文介绍了 Python 中使用 `json` 模块进行序列化和反序列化的操作。序列化是指将 Python 对象(如字典、列表)转换为 JSON 字符串,主要使用 `json.dumps` 方法。示例包括基本的字典和列表序列化,以及自定义类的序列化。反序列化则是将 JSON 字符串转换回 Python 对象,使用 `json.loads` 方法。文中还提供了具体的代码示例,展示了如何处理不同类型的 Python 对象。
|
29天前
|
XML JSON Kubernetes
什么是 YAML?:一种简洁高效的数据序列化格式
什么是 YAML?:一种简洁高效的数据序列化格式
119 0
|
1月前
|
数据采集 JavaScript 程序员
探索CSDN博客数据:使用Python爬虫技术
本文介绍了如何利用Python的requests和pyquery库爬取CSDN博客数据,包括环境准备、代码解析及注意事项,适合初学者学习。
81 0
|
1月前
|
数据采集 存储 分布式计算
超酷炫Python技术:交通数据的多维度分析
超酷炫Python技术:交通数据的多维度分析
|
1月前
|
索引 Python
SciPy 空间数据1
SciPy 通过 `scipy.spatial` 模块处理空间数据,如判断点是否在边界内、计算最近点等。三角测量是通过测量角度来确定目标距离的方法。多边形的三角测量可将其分解为多个三角形,用于计算面积。Delaunay 三角剖分是一种常用方法,可以对一系列点进行三角剖分。示例代码展示了如何使用 `Delaunay()` 函数创建三角形并绘制。
36 0
|
4月前
|
JSON 缓存 安全
Python pickle 二进制序列化和反序列化 - 数据持久化
Python pickle 二进制序列化和反序列化 - 数据持久化
62 0