序列化与反序列化是一对相对的概念,序列化即将A形式的数据转换成B形式的数据,反序列化则是将B形式的数据还原成A形式。我们在浏览器中网页的传输方式其实可以理解为一组序列化与反序列化过程,通过将一些图片、文字信息转换成字节流,通过互联网的传输到我们的电脑上,再将字节流还原为最初的图片或文字格式。
这里讲python中常用的两种序列化格式,一种是使用json格式进行序列化与反序列化,另一种是使用字节进行序列化和反序列化。
开始之前
在开始之前,让我们先抛开具体的实现细节,从设计层面去认识一下序列化与反序列化这个过程。
A形式的数据转换为B形式的数据,在这个转换的过程中需要有一个公共的转换规则,也就是说同样的一份A形式的数据只要经过这个转换规则,所产生的B形式的数据应该是一模一样的,且必须是一模一样的。这里的「转换规则」也被称为「协议」。在有了「协议」以后,我们就可以根据协议将A形式的数据转换为B形式的数据。
json序列化
json格式原本是javascript中的一种数据格式,由于可读性好,因此在其他语言中也得到普遍应用。
json中有6种数据类型,分别是下面这些:
- 字符串类型:
"abc"
、"def"
- 数字类型:
1
、1.1
- 对象类型:
{...}
- 数组类型:
[...]
- 布尔类型:
true/false
- 空类型:
null
知道了json中的一些格式,只要我们可以将python中已有的一些数据类型通过「协议」将我们要转换的数据转换为以上6种格式中的一种,就可以完成A到B的转换。
在python的官方库json
中已经对一部分数据类型的转换规则做出了规定
整型和浮点型
对于整型和浮点型数据,由于json中没有对二者进行划分,所以统一为数字类型,在进行反序列化的时候,将数字类型统一转换为浮点类型。
a = 1 # 1 b = 1.1 # 1.1
字符串
python中的字符串也可以与json中的字符串进行互相转换,但值得注意的是,在python中字符串可以使用````、
" "
、''' '''
和""" """
进行包裹,但在json中字符串必须使用" "
进行包裹。
str1 = "apple" # apple
布尔类型
a = True # true b = True # false
数组
python中的数组与json中的数组可以直接转换
arr = [1,2,3,4,5,6,7] # [1,2,3,4,5,6,7]
字典
python中的字典可以与json中的对象进行转换
dict1 = {"a":1, "b":1} # {"a":1, "b":1}
以上就是python中已经预先规定的「转换协议」, 当然这些具体的转换细节不需要我们来考虑,python已经为我们实现了一个json
库,可以直接使用
序列化数据
import json data = [ {'name':'Jack', 'age':16}, {'name':'Tom', 'age':20}, ] dump_str = json.dumps(data) print(dump_str) # [{"name": "Jack", "age": 16}, {"name": "Tom", "age": 20}]
序列化的结果是一个字符串,因此,你可以将dump_str
写入文件中。上面是序列化一个在转换协议中已经规定好的数据,那么如果需要序列化一个没有规定的数据类型时,该如何去进行序列化呢?这时就需要我们去扩展序列化协议,告诉python如何将任意一个数据类型转换为上面6种中的一个。
我们以序列化一个类为例,我们创建一个Student
类型的类,里面有两个属性,分别是name
和age
。
class Student: def __init__(self, name, age): self.name = name self.age = age
通过继承json提供的JsonEncoder
类并重写default
方法来自定义转换过程,在进行序列化的时候,将我们继承的类以参数的形式传递到dumps
中就可以对我们自定义的数据类型来进行转换。
import json class MyJsonEncoder(json.JSONEncoder): def default(self, o): # 这里处理我们的自定义的类型 if type(o) is Student: return {'name':o.name, 'age':o.age} # 其他类型直接返回,因为序列化协议中已经规定好了 return o s1 = Student('Jack', 19) # cls = MyJsonEncoder dump_str = json.dumps(s1, cls=MyJsonEncoder) print(dump_str)
从上面自定义的转换协议可以发现,其实我们也是将一个自定义类的里面的数据转换成之前已经存在的数据类型上。这种转换在后面的反序列化中其实是无法将其再复原为一个Student
类的,但如果只需要序列化而不需要反序列过程,那么这样也是足够的。
反序列化数据
上面我们获得了一个序列化好的字符串,如:
dump_str =
dump_str = '[{"name": "Jack", "age": 16}, {"name": "Tom", "age": 20}]'
在反序列化过程中,由于json里面的6种数据类型,都可以直接在python中找到对应的数据类型,所以可以直接进行转换。
import json dump_str = '[{"name": "Jack", "age": 16}, {"name": "Tom", "age": 20}]' python_obj = json.loads(dump_str) print(python_obj) # [{'name': 'Jack', 'age': 16}, {'name': 'Tom', 'age': 20}]
和序列化过程一样,这个反序列化过程我们也是可以来进行自定义的,通过json
提供的JSONDecoder
来进行自定义反序列化过程,但不是通过重写default
方法,而是通过重写decode
方法。
import json class MyJsonDecoder(json.JSONDecoder): def decode(self, s): ret = super().decode(s) return ret dump_str = '[{"name": "Jack", "age": 16}, {"name": "Tom", "age": 20}]' python_obj = json.loads(dump_str, cls=MyJsonDecoder) print(python_obj) # [{'name': 'Jack', 'age': 16}, {'name': 'Tom', 'age': 20}]
这里的我们自定义的MyJsonDecoder
其实就最最终的效果而言并没有任何改变,因为只做了一个返回,这样一来就显得我们自定义的解析器没有意义。但是如果针对于一个特定类的实现的解码器而言就显得有意义。看下面这个例子:
import json class Student: def __init__(self, name, age): self.name = name self.age = age def __str__(self): return f'<Student name:{self.name}, age:{self.age}>' class MyJsonEncoder(json.JSONEncoder): def default(self, o): if type(o) is Student: return {'name':o.name, 'age':o.age} return o class MyJsonDecoder(json.JSONDecoder): def decode(self, s): ret = super().decode(s) return Student(name=ret['name'], age=int(ret['age'])) s1 = Student('Jack', 19) dump_str = json.dumps(s1, cls=MyJsonEncoder) print('s1 json str: %s' % dump_str) # s1 json str: {"name": "Jack", "age": 19} python_obj = json.loads(dump_str, cls=MyJsonDecoder) print(python_obj) # <Student name:Jack, age:19>
pickle序列化
上面的json序列化可以将数据最终序列化为字符串形式,而pickle则是将数据序列化为字节形式。
序列化数据
import pickle data = [ {'name':'Jack', 'age':16}, {'name':'Tom', 'age':20}, ] print(pickle.dumps(data)) # b'\x80\x04\x95/\x00\x00\x00\x00\x00\x00\x00]\x94(}\x94(\x8c\x04name\x94\x8c\x04Jack\x94\x8c\x03age\x94K\x10u}\x94(h\x02\x8c\x03Tom\x94h\x04K\x14ue.'
对于pickle而言,可以直接将已有的数据结构转换成字节的形式,这种方式非常底层,所以在进行反序列化的时候也较容易复原。
反序列化数据
import pickle data = [ {'name':'Jack', 'age':16}, {'name':'Tom', 'age':20}, ] class Student: def __init__(self, name, age): self.name = name self.age = age s1 = Student('Jack', 19) pickle_byte = pickle.dumps(s1) print(pickle.loads(pickle_byte)) # <__main__.Student object at 0x000002C317BF2970>
未完待续...