摊牌了,我是热心网友!

简介: 不管是 RPC 或者 HTTP,只要传输的内容是「对象」,要想在接收方还原出一摸一样的「对象」,那就需要序列化和反序列化。

大家好,我是热心网友 —— 小林。

有位读者问了,我这么一个问题:

20.png


不管是 RPC 或者 HTTP,只要传输的内容是「对象」,要想在接收方还原出一摸一样的「对象」,那就需要序列化和反序列化。


那什么是序列化和反序列化呢?


RPC 能帮助我们的应用透明地完成远程调用,即调用其他服务器的函数就像调用本地方法一样。发起调用请求的那一方叫做调用方,被调用的一方叫做服务提供方。

调用方和服务提供方一般是不同的服务器,所以就需要通过网络来传输数据,并且 RPC 常用于业务系统之间的数据交互,需要保证其可靠性,所以 RPC 一般默认采用 TCP 协议来传输。同时, HTTP 协议也是建立在 TCP 之上的。

网络传输的数据必须是二进制数据,但调用方请求的出入参数都是对象,而对象是肯定没法直接在网络中传输的,需要提前把「对象转成二进制数据」进行网络传输,这个转换过程就做序列化。相反,服务提供方收到网络数据后,需要将「二进制数据转成对象」,这个转换过程就叫做反序列化。

25.png

总结来说,序列化就是将对象转换成二进制数据的过程,以方便传输或存储。而反序列就是将二进制转换为对象的过程。


为什么 RPC 经常提到序列化呢?


因为网络传输的数据必须是二进制数据,所以在 RPC 调用中,对入参对象与返回值对象进行序列化与反序列化是一个必须的过程。


HTTP 什么时候需要序列化呢?


举个例子。

当客户端和服务端交互的数据是 JSON,这时候发送方需要将 JSON 对象转换成二进制数据发送到网络,接收方需要将接收到的二进制数据转换成 JSON 对象。

说了,这么多概念,接下来跟大家说说有哪些常用的序列化方式?


JDK 原生序列化


Java 语言中 JDK 就自带有序列化的方式,举个 JDK 序列化的例子。

注意,这个例子是将 Student 对象保存到文件,保存到文件的数据是二进制数据,所以并不是说序列化只用在网络传输场景里,只要是保存数据的场景只能是二进制数据时,就需要用序列化。

import java.io.*;
public class Student implements Serializable {
    //学号
    private int no;
    //姓名
    private String name;
    public int getNo() {
        return no;
    }
    public void setNo(int no) {
        this.no = no;
    }
    public String getName() {
        return name;
    }
    public void setName(String name) {
        this.name = name;
    }
    @Override
    public String toString() {
        return "Student{" +
                "no=" + no +
                ", name='" + name + '\'' +
                '}';
    }
    public static void main(String[] args) throws IOException, ClassNotFoundException {
        String basePath = "/root";
        FileOutputStream fos = new FileOutputStream(basePath + "student.dat");
        //初始化一个学生对象
        Student student = new Student();
        student.setNo(1);
        student.setName("xiaolin");
        //将学生对象序列化到文件里
        ObjectOutputStream oos = new ObjectOutputStream(fos);
        oos.writeObject(student);
        oos.flush();
        oos.close();
        //读取文件中的二进制数据,并将数据反序列化为学生对象
        FileInputStream fis = new FileInputStream(basePath + "student.dat");
        ObjectInputStream ois = new ObjectInputStream(fis);
        Student deStudent = (Student) ois.readObject();
        ois.close();
        System.out.println(deStudent);
    }
}

从上面的代码,我们可以知道:

  • JDK 自带的序列化具体的实现是由 ObjectOutputStream 完成的;
  • 而反序列化的具体实现是由 ObjectInputStream 完成的。

既然序列化是将对象转换为二进制数据,那序列化的过程的二进制数据肯定是有某种固定的格式。

比如 JDK 自带的序列化的过程如下图:

24.png

序列化过程就是在读取对象数据的时候,不断加入一些特殊分隔符,这些特殊分隔符用于在反序列化过程中截断用。

  • 头部数据用来声明序列化协议、序列化版本,用于高低版本向后兼容;
  • 对象数据主要包括类名、签名、属性名、属性类型及属性值,当然还有开头结尾等数据,除了属性值属于真正的对象值,其他都是为了反序列化用的元数据
  • 存在对象引用、继承的情况下,就是递归遍历“写对象”逻辑

所以,从这个例子我们可以知道,任何一种序列化的方式,其核心思想就要设计一套将对象转换成某种特定格式的二进制数据,接着反序列化的时候,就能根据规则从二进制数据解析出对象。

这么看,序列化其实就是一种协议,序列化方和反序列化方都要遵循相同的规则,否则就无法得到正常的数据。

不过,JDK 原生序列化缺陷就是不能跨语言,只能在 Java 生态里使用。


JSON


JSON 数据的格式相信大家都很熟悉了吧,在 Web 应用里特别常见,通常后端和前端的耦合就是 JSON 数据。

JSON 是典型的 Key-Value 方式,没有数据类型。很多语言都实现了 JSON 序列化的第三库,所以 JSON 序列化的方式可以跨语言。

比如,Java 语言中常用的 JSON 第三方类库有:

  • Gson: 谷歌开发的 JSON 库,功能十分全面。
  • FastJson: 阿里巴巴开发的 JSON 库,性能十分优秀。
  • Jackson: 社区十分活跃且更新速度很快。

我这里说个 C++ 的 JSON 第三方库:JSON for Modern C++。

23.jpg

使用起来很方便,仅需要包含一个头文件“json.hpp”,没有外部依赖,也不需要额外的安装、编译、链接工作,适合快速上手开发。

因为 JSON 是 Key-Value 形式,所以 JSON for Modern C++ 的操作和标准容器 map 一样,用关联数组的“[]”来添加任意数据。

这里贴几个例子:

// 给 JSON for Modern C++ 的 json 类取个别名
using json_t = nlohmann::json;  
// JSON对象
json_t j;                                   
// "age":18
j["age"] = 18;
// "name":"xiaolin"
j["name"] = "xiaolin";    
// "gear":{"suits":"2099"}
j["gear"]["suits"] = "2099"; 
// "jobs":["superhero"]  
j["jobs"] = {"superhero"};                  
vector<int> v = {1,2,3};  
// "numbers":[1,2,3]
j["numbers"] = v;                          
map<string, int> m =                       
    {{"one", 1}, {"two", 2}};    
// "kv":{"one":1,"two":2}
j["kv"] = m;

添加完 JSON 数据后,就可以调用成员函数 dump() 进行初始化,得到 JSON 文本形式,也就是 JSON 字符串:

cout << j.dump() << endl;

反序列化也很简单,只要调用静态成员函数 parse() 就行,直接得到 JSON 对象:

// JSON文本,原始字符串
string jsonStr = R"({               
    "name": "xiaolin",
    "age" : 18
})";
// 从字符串反序列化
json_t j = json_t::parse(jsonStr);    
// 验证序列化是否正确
assert(j["age"] == 18);        
assert(j["name"] == "xiaolin");

对于通常的应用来说,掌握了基本的序列化和反序列化就够用了,如果想要了解 JSON for Modern C++ 其他特性,可以去看它的 Github。

JSON 进行序列化存在的问题,因为 JSON 进行序列化的额外空间开销比较大,对于大数据量服务这意味着需要巨大的内存和磁盘开销,所以如果在传输数据量比较小的场景,就可以采用 JSON 序列化的方式。


ProtoBuffer


ProtoBuf 是由 Google 出品的,是一种轻便、高效的结构化数据存储格式,可以用于结构化数据序列化,支持 Java、Python、C++、Go 等语言。

Protobuf 使用的时候必须写一个 IDL(Interface description language)文件,在里面定义好数据结构,只有预先定义了的数据结构,才能被序列化和反序列化。

下面是一个简单的 IDl 文件格式:

syntax = "proto2";  // 使用第2版
package sample;   // 定义名字空间
message Person {            // 定义消息
  required string name = 1;  // required表示必须字段
  required int32 id = 2;
  optional string email = 3;  // optional字段可以没有
}

写完 IDL 文件后,然后使用不同语言的 IDL 编译器,生成序列化工具类。

Protobuf 在 Github 有文档介绍了不同语言是怎么使用编译器生成序列化工具类了,我在这里就不介绍了。

22.png

这里贴 C++ 和 Java 语言使用 Protobuf 相关接口进行序列化和反序列化的例子。

C++ 进行序列化和反序列化的例子:

// 类型别名
using person_t = sample::Person;        
// 声明一个Protobuf对象
person_t p;                             
// 设置每个字段的值 
p.set_id(1);                           
p.set_name("xiaolin");
p.set_email("xiaolincoding@163.com");
// 序列化到字符串 
string enc;
p.SerializeToString(&enc);
// 反序列化
person_t p2; 
p2.ParseFromString(enc);

Java 进行序列化和反序列化的例子:

/**
 *
 * // IDl 文件格式
 * synax = "proto3";
 * option java_package = "com.test";
 * option java_outer_classname = "StudentProtobuf";
 *
 * message StudentMsg {
 * //序号
 * int32 no = 1;
 * //姓名
 * string name = 2;
 * }
 * 
 */
StudentProtobuf.StudentMsg.Builder builder = StudentProtobuf.StudentMsg.newBuilder();
builder.setNo(1);
builder.setName("xiaolin");
//把student对象转化为byte数组
StudentProtobuf.StudentMsg msg = builder.build();
byte[] data = msg.toByteArray();
//把刚才序列化出来的byte数组转化为student对象
StudentProtobuf.StudentMsg deStudent = StudentProtobuf.StudentMsg.parseFrom(data);
System.out.println(deStudent);

现在很多大厂都在使用 Protobuf,而且 gRPC 就是基于 Protobuf 来做的序列化。

参考资料:《C++ 实战笔记》、《RPC 实战与核心原理》


总结


将对象保存到文件,或者通过网络传输给对方,都是需要将对象转换二进制数据才能完成,那么对象转二进制数据的过程就是序列化,相反的,二进制数据转对象的过程就是反序列化的过程。

我也给你介绍了几种常见的序列化方式:

  • JDK 自带的序列化方式无法跨语言使用;
  • JSON 序列化大多数语言都支持,JSON 优势是使用起来简单,容易阅读,应用广泛,缺点就是不适合大数据量的场景;
  • ProtoBuf 使用需要定义 IDL 文件,序列化后体积相比 JSON 小很多,现在很多大公司都在用,gRPC 框架使用 protobuf 序列化。


相关文章
|
大数据 测试技术 程序员
【面试邀请】温大大和他的朋友们,日常都是怎么「摸鱼+加薪」的?
大家好,我是温大大 就像马丁·路德·金说过一句话:I have a dream 温大大也有个梦想就是: 1、将毕生所学的「测试技能」倾囊相授传给各位同学,让同学们升职加薪。 2、组建一个测试圈,在这里我们可以:讨论「测试」技术问题、揭秘「测试」薪酬、分享「面试」套路。
【面试邀请】温大大和他的朋友们,日常都是怎么「摸鱼+加薪」的?
|
消息中间件 SpringCloudAlibaba Java
经久不衰!阿里P8私传“金九银十面试”突击手册下载秒破万
程序员的发展,在于横向与纵向的打磨。一个逐渐走向成熟的程序员,是在可以不断精炼自己写CRUD能力的同时,还能主动追求技术拓展。
395 0
|
Unix 程序员 Windows
雷军做程序员时写的博客,太牛了。。
我并非天生喜欢写程序,上高中时也没有想过程序员的生活。 我学电脑非常偶然,小时好友上大学时选择了计算机系,为了和这个朋友有更多的共同语言,我也选择了计算机系,开始步入程序人生的道路。
184 0
师傅带徒弟 但是不能 教会徒弟饿死师傅!
  有两句古话:师傅带徒弟、教会徒弟饿死师傅。   这两句是不是有点矛盾呢?     先来看看师傅带徒弟。这个在以前是比较常见的。在工厂车间里,刚分配来的学生,一般都会找一个成手,手把手的来教他。
2891 0
|
架构师 Java 程序员
程序员懊恼面试被屡次遭拒,网友:38岁了心里没点逼数吗?
程序员面试的三道坎,学历、工作经验、年龄。前两者倒也还好,而年龄这个标准始终是程序员们卡在喉咙上的一根刺,不知何时会突然扎穿喉咙,了断性命。现在互联网行业日益趋近年轻化,许多企业对于程序员的年龄标准大约在35岁左右(参考华为35岁离职),若是38岁去求职,结果可想而知! 这名程序员38岁了,找工作本就难,还是大专学历,更是难上加难,网友表示:楼主38岁工作经验定然丰富,不知之前是否有在大公司工作过没,若是有可以给自己的简历添几笔加分,机会也会多一点。
1296 0
|
机器学习/深度学习 Java 应用服务中间件
程序员吐槽自己阿里p7面试微软被拒,网友:你就是高级一点的码农
我想一提起阿里巴巴,我们就互相到马云这位大佬。然而阿里巴巴也是我国巨头企业霸主之一,在国际上也十分具有知名度。众所周知阿里员工的待遇和福利是非常优渥的,因此也吸引了很多年轻人的目光。但是阿里和国际知名企业如谷歌、微软等相较于技术来说还是有着一定的差距。
1512 0
|
Java 程序员 应用服务中间件
世界上现在没了程序员,会怎样?网友说:然后世界就凉了
我想问下,你们现在能离开电子产品?比如智能冰箱,微波炉,智能洗衣机,手机,电脑等等。 答案肯定是不行,现在一天得工作都是跟互联网有关。比如公司的管理系统,还有工作qq,微信。
895 0
|
Java 程序员 PHP
朋友帮写的软文,大家看下如何
现在的社会很浮躁,就连程序员这么个低调稳重的物种都开始浮躁起来了。每天论坛里讨论得最多的不是技术,而是在争辩哪种编程语言最好,甚至诋毁其他语言。 作为一名集才华与正义于一身的资深程序员,我觉得这样很不好,程序员宝宝们需要的是团结,是不断学习,是共同进步啊!因此,我有必要站在客观公正的角度,理性地和大家分享一下几种主流语言的优缺点,以及为什么说PHP是最好的语言(严肃脸)。
1145 0

相关实验场景

更多
下一篇
DataWorks