开发者社区> 徐雷frank> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

深入对比Java与Hadoop大数据序列化机制Avro

简介: Java有自己提供的序列化机制,而我们的Hadoop也提供了自己的序列化机制,二者究竟有什么差异呢?为什么Hadoop要重新设计自己的序列化体系?序列化大数据对象的过程,Writable接口底层源码实现。
+关注继续查看

Java有自己提供的序列化机制,而我们的Hadoop也提供了自己的序列化机制,二者究竟有什么差异呢?为什么Hadoop要重新设计自己的序列化体系?序列化大数据对象的过程,Writable接口底层源码实现。
首先我们先了解一下什么是序列化,为什么需要序列化?
1、序列化机制Serialization
序列化Serialization,是将结构化对象转换为字节流以便通过网络传输或写入持久存储的过程。 中文也有翻译为:串行化。
Java_Serialization_

反序列化deSerialization相反,是将字节流转换回一系列结构化对象的相反过程。 序列化用于分布式数据处理的两个截然不同的领域:进程间通信和持久存储。

2、Java序列化
Java对象序列化JDK 1.1引入,将Java对象转换为用于存储或传输的字节数组的机制,这样所述字节数组可以再转换回Java对象。Java提供了ObjectInputStream / ObjectOutputStream类,普通对象实现Serializable来支持序列化。
简单的订单Order对象序列化代码如下:

Order order = new Order("iPhone 8 X", 8888);
            try {
                FileOutputStream fileOut = new FileOutputStream("1.data");
                ObjectOutputStream outObj = new ObjectOutputStream(fileOut);
                outObj.writeObject(order);
                outObj.close();
                System.out.println("Objects were serialized!");
            } catch (IOException e) {
                e.printStackTrace();
            }

3、Hadoop序列化机制需求
Doug Cutting决定重写Hadoop的序列化机制,大数据平台Hadoop数据传输有自己的特殊需求,大文件,大对象,而不希望依赖于Java语言。
SystemIllustration

设计的目标:

  1. Compact:压缩.
  2. Fast: 快速serialization and deserilization.
  3. Extensible: 可扩展
  4. Interoperable:互操作

所以大数据Hadoop没有使用Java Serialization,而是编写了自己的序列化框架。 Java序列化的主要问题是它将被序列化的每个对象的类名写入流中,该类的每个后续实例包含对第一个的5字节引用,而不是类名。
How_To_Install_Apache_Avro_On_Ubuntu_Running_Apache_Hadoop

                    序列化过程

除了减少Stream流的有效带宽之外,这还会导致随机访问以及序列化流中记录的排序问题。因此,Hadoop序列化不会编写类名或必需的引用,并假设客户端知道期望的类型。

Java Serialization还为每个反序列化的对象创建一个新对象。实现Hadoop序列化的Hadoop Writable可以重用。因此,有助于提高MapReduce的性能,从而对数十亿条记录进行逐步序列化和反序列化。
4、Avro大数据序列化框架源码
Avro适用于Hadoop,因为它以不同的方式接近序列化。客户端和服务器交换描述数据流的方案。这有助于使其快速,紧凑,并且重要的是使得更容易将语言混合在一起。

5、核心接口Writable
因此,Avro为来大数据定义了一种简化的高性能序列化格式,自己定义了Writable接口,一种用于客户端和服务器通信序列化流的协议,可以在在文件中紧凑地保存数据的方法。
Writable接口有两个方法——一个用于写Write,一个用于读Read。写入方法将其状态写入DataOutput二进制流,读取方法从DataInput二进制流读取其状态。保证高效处理大数据二进制流。
Writable的接口的源代码如下:

package org.apache.hadoop.io;
import java.io.DataOutput;
import java.io.DataInput;
import java.io.IOException;
public interface Writable {
    void write(DataOutput out) throws IOException;
    void readFields(DataInput in) throws IOException;
}

序列化实现代码

public static byte[] serialize(Writable writable) throws IOException {
    ByteArrayOutputStream outStream = new ByteArrayOutputStream();
    DataOutputStream dataOut = new DataOutputStream(outStream);
    writable.write(dataOut);
    dataOut.close();
    return outStream.toByteArray();
}

反序列化实现代码

public static byte[] deserialize(Writable writable, byte[] bytes)
throws IOException {
    ByteArrayInputStream inStream = new ByteArrayInputStream(bytes);
    DataInputStream dataIn = new DataInputStream(inStream);
    writable.readFields(dataIn);
    dataIn.close();
    return bytes;
}

6、Hadoop 整数序列化过程

首先,通过在IntWritable类中包装一个整数值来实例化该类。
然后,实例化ByteArrayOutputStream类。
此外,实例化DataOutputStream类,然后将ByteArrayOutputStream类的对象传递给它。
此外,使用write()方法序列化IntWritable对象中的整数值。此外,确保在使用此方法时需要DataOutputStream类的对象。
最终,我们称为serialize的数据将存储在字节数组对象中,并且在实例化时,数据将作为参数传递给DataOutputStream类。
7、Hadoop反序列化过程
对于反序列化,首先通过在IntWritable类中包装一个整数值来实例化该类。
然后实例化ByteArrayOutputStream类。
此外,实例化DataOutputStream类,并将ByteArrayOutputStream类的对象传递给它。
然后,使用IntWritable类的readFields()方法,反序列化DataInputStream对象中的数据。
这样,反序列化的数据将存储在IntWritable类的对象中。使用这个类的get()方法,我们可以检索这个数据。
Writable针对不同类型,基本类型和引用类型都提供了自己的封装实现。继承关系如下图所示:
hadoop_data_type_writable_interface

8、总结
Hadoop为来更高效的数据传输,自己定义了序列化机制,并且Avro只是大数据分布式架构的RPC传输。
本质上Avro降低了序列化和反序列化对象创建的开销,而且数据精简更加高效。
当然也有其局限性,比如Key是字符串类型。
Avro支持二进制和JSON格式。可以根据需要作出选择。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
《Java学习指南》—— 1.5 实现安全
安全管理器的完整性依赖于Java安全模型在更低层次所提供的保护。如果没有校验器和类加载器所提供的保证,有关系统资源安全性的高级断言就没有意义。由Java字节码校验器所提供的安全表明,解释器不能被破坏或搅扰,而且Java代码必须如期使用组件。
1786 0
《Java遗传算法编程》—— 第2章 实现一个基本遗传算法 2.1 实现之前
Java遗传算法编程 在本章中,我们将开始探索实现基本遗传算法的技术。本章开发的程序,将在后面的章节中进行修改,加入功能。同时,我们也将探讨基于遗传算法的参数和配置,以及它的性能会如何变化。
1414 0
【JAVA秒会技术之玩转图片】图片下载和等比或指定大小压缩快速实现
JAVA图片下载和等比或指定大小压缩工具类 话不多,直接上代码: package com.netease.test; import java.awt.Color; import java.awt.Graphics2D; import java.awt.Image; import java.awt.RenderingHints; import java.awt
2155 0
Jackcard相似度和余弦相似度(向量空间模型)的java实现
版权声明:本文为博主原创文章,地址:http://blog.csdn.net/napoay,转载请留言。 总结Jackcard相似度和余弦相似度。
1058 0
Java并发指南9:AQS共享模式与并发工具类的实现
这位大侠,这是我的公众号:程序员江湖。 分享程序员面试与技术的那些事。 干货满满,关注就送。  一行一行源码分析清楚 AbstractQueuedSynchronizer (三) 转自:https://javadoop.com/post/AbstractQueuedSynchronizer-3 这篇文章是 AQS 系列的最后一篇,第一篇,我们通过 ReentrantLock 公平锁分析了 AQS 的核心,第二篇的重点是把 Condition 说明白,同时也说清楚了对于线程中断的使用。
991 0
Java实现全排列、组合算法
Java实现全排列、组合算法
9733 0
Java使用OpenCV3.2实现视频读取与播放
Java使用OpenCV3.2实现视频读取与播放 OpenCV从3.x版本开始其JAVA语言的SDK支持视频文件读写,这样就极大的方便了广大Java语言开发者学习与使用OpenCV,通过摄像头或者视频文件读取帧的内容与播放,完成视频内容分析与对象跟踪等各种应用开发任务。
1942 0
将c++静态库实现二次封装供java调用
工作中常常作为c++开发者,常常需要与java开发人员进行对接,或者他们看重了一些很好的c++库想借用,就需要将这些已有的开发可进行二次封装给java开发调用 首先需要从官网下载jdk并安装,例如本人的安装路径:C:\software\java\jdk1.
959 0
剑指offer Java实现
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/a724888/article/details/68935922 剑指offer Java实现 代码地址如下: https://github.
765 0
java多线程 -- 创建线程的第三者方式 实现Callable接口
Java 5.0 在 java.util.concurrent 提供了一个新的创建执行线程的方式:Callable 接口Callable 接口类似于 Runnable,两者都是为那些其实例可能被另一个线程执行的类设计的。
671 0
+关注
徐雷frank
1.阿里云大学讲师,主讲《微服务Spring Cloud设计与开发实战》《MongoDB高级实战》等课程 2.MongoDB中文社区专家 3.《MongoDB实战》第2版译者 5.吉林大学计算机科学学士、上海交通大学硕士
58
文章
456
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载