Protobuf vs CBOR:新一代的二进制序列化格式

简介: Protobuf vs CBOR:新一代的二进制序列化格式

摄影:产品经理我跟产品经理喝了这家的糖水以后都头疼了一天

在以前的文章中,我们讲到了什么时候用 Yaml,什么时候用 JSON,什么时候用 Protobuf:

  • 人写机器读,用 Yaml
  • 机器写,人读,用 JSON
  • 机器写,机器读,用 JSON 或者 Protobuf

JSON 作为几乎每一个语言都支持的序列化格式,在很多地方都得到了广泛应用。但有个弊端,JSON 里面充斥了大量的大括号、中括号和双引号,导致冗余的字符太多,数据量非常大,在对传输速度有高要求的场景下,数据量越大,占用的传输带宽就越大,单位时间传输的数据也就越少。

Protobuf 是 Google 开发的一个二进制序列化格式,与 JSON 相比,Protobuf 的数据非常精简,甚至连数据的字段名都没有。例如有这样一段数据:

a = {'name': 'kingname', 'salary': 99999, 'address': '上海', 'skill': ['Python', '爬虫', 'Golang']}

如果用 Protobuf 来表示,那么数据的二进制形式是这样的:

这个二进制数据只有值,但没有字段名,所以要解析这些数据,必须在代码里面额外把字段名带上。所以需要定义一个xxx.proto文件,在里面标记每一个字段的信息。在任何时候任何语言中,需要序列化和反序列化的地方,都要提前使用protoc命令,基于这个.proto文件,生成一个xxx_pb2文件,通过从这个 xxx_pb2文件中导入数据对象来对数据进行处理。

因此,我们说,proto 格式,虽然确实精简了网络中的数据传输量,但却给开发者增加了相当大的工作量。

而最近,又新出来一种二进制序列化格式:CBOR,它的数据比 JSON 小,但是开发起来又比 Protobuf 简单得多。

我们来看看使用 CBOR 对上面的数据进行序列化操作。首先在 Python 中安装CBOR

python3 -m pip install cbor2

安装完成以后,我们来对数据进行序列化:

import cbor2
a = {'name': 'kingname', 'salary': 99999, 'address': '上海', 'skill': ['Python', '爬虫', 'Golang']}
result = cbor2.dumps(a)
print(result)

运行效果如下图所示:

注意,打印出来的是二进制数据,不是字符串。可以看到,数据是自带字段名的,字段名与值之间会有特殊的字符进行分割,CBOR 能够自动识别这些特殊符号,从而区分字段名和字段值。

经过我的测试,一个150MB 的大 JSON文件,读入到内存,然后重新通过 CBOR 序列化以后写文件,这个文件大小可以缩减到60MB 左右。虽然压缩比例不如 Protobuf,可读性不如 JSON;但是压缩比例比 JSON 高,可读性比 Protobuf 好,而且几乎不增加额外工作量。

大家在写微服务或者网站前后端通信的时候,可以考虑试一试 CBOR — Concise Binary Object Representation | Overview[1]

目录
相关文章
|
1月前
|
存储 Java 应用服务中间件
后端企业级开发之yaml数据序列化格式文件详解2024
后端企业级开发之yaml数据序列化格式文件详解2024
17 0
|
2月前
|
C++
[序列化协议] --- protobuf
[序列化协议] --- protobuf
41 0
|
2月前
protobuf 序列化和反序列化
protobuf 序列化和反序列化
26 0
|
2月前
|
消息中间件 JSON 监控
Kafka 的消息格式:了解消息结构与序列化
Kafka 作为一款高性能的消息中间件系统,其消息格式对于消息的生产、传输和消费起着至关重要的作用。本篇博客将深入讨论 Kafka 的消息格式,包括消息的结构、序列化与反序列化,以及一些常用的消息格式选项。通过更丰富的示例代码和深入的解析,希望能够帮助大家更好地理解 Kafka 消息的内部机制。
|
2月前
|
存储 XML JSON
日常小知识点之序列化结构(protobuf使用及简单原理)
日常小知识点之序列化结构(protobuf使用及简单原理)
107 0
|
2月前
|
XML JSON 网络协议
JSON和Protobuf序列化
因为像TCP和UDP这种底层协议只能发送字节流,因此当我们在开发一些远程过程调用(RPC)的程序时,需要将应用层的Java POJO对象序列化成字节流,数据接收端再反序列化成Java POJO对象。序列化一定会设计编码和格式化,目前常见的编码方式有:
|
11月前
|
XML 存储 JSON
数据序列化工具 Protobuf 编码&避坑指南
我们现在所有的协议、配置、数据库的表达都是以 protobuf 来进行承载的,所以我想深入总结一下 protobuf 这个协议,以免踩坑。 先简单介绍一下 Protocol Buffers(protobuf),它是 Google 开发的一种数据序列化协议(与 XML、JSON 类似)。它具有很多优点,但也有一些需要注意的缺点: 优点: 效率高:Protobuf 以二进制格式存储数据,比如 XML 和 JSON 等文本格式更紧凑,也更快。序列化和反序列化的速度也很快。 跨语言支持:Protobuf 支持多种编程语言,包括 C++、Java、Python 等。 清晰的结构定义:使用 prot
|
自然语言处理 Java 测试技术
序列化性能之巅:使用Fury替换Protobuf/Flatbuffers实现10倍加速
问题背景Protobuf/Flatbuffers是业界广泛使用的序列化库,服务于大量的业务场景。但随着业务场景的复杂化,Protobuf/Flatbuffers逐渐不能满足性能需求开始成为系统瓶颈,在这种情况下,用户不得不手写大量序列化逻辑来进行极致性能优化,但这带来了三个问题:大量字段手写序列化逻辑冗长易出错;手写重复序列化逻辑开发效率低下;难以处理发送端和接收端字段变更的前后兼容性问题;这里将
1603 0
|
JSON 数据格式 Python
django drf 案例--实现url编码和json和dict格式转化小工具(涉及定义模型类,序列化器,类视图,路由),接口测试
django drf 案例--实现url编码和json和dict格式转化小工具(涉及定义模型类,序列化器,类视图,路由),接口测试
|
Dubbo 算法 安全
Java序列化案例demo(包含Kryo、JDK原生、Protobuf、ProtoStuff以及hessian)(二)
Java序列化案例demo(包含Kryo、JDK原生、Protobuf、ProtoStuff以及hessian)(二)
Java序列化案例demo(包含Kryo、JDK原生、Protobuf、ProtoStuff以及hessian)(二)