深入对比Java与Hadoop大数据序列化机制Avro

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: Java有自己提供的序列化机制,而我们的Hadoop也提供了自己的序列化机制,二者究竟有什么差异呢?为什么Hadoop要重新设计自己的序列化体系?序列化大数据对象的过程,Writable接口底层源码实现。

Java有自己提供的序列化机制,而我们的Hadoop也提供了自己的序列化机制,二者究竟有什么差异呢?为什么Hadoop要重新设计自己的序列化体系?序列化大数据对象的过程,Writable接口底层源码实现。
首先我们先了解一下什么是序列化,为什么需要序列化?
1、序列化机制Serialization
序列化Serialization,是将结构化对象转换为字节流以便通过网络传输或写入持久存储的过程。 中文也有翻译为:串行化。
Java_Serialization_

反序列化deSerialization相反,是将字节流转换回一系列结构化对象的相反过程。 序列化用于分布式数据处理的两个截然不同的领域:进程间通信和持久存储。

2、Java序列化
Java对象序列化JDK 1.1引入,将Java对象转换为用于存储或传输的字节数组的机制,这样所述字节数组可以再转换回Java对象。Java提供了ObjectInputStream / ObjectOutputStream类,普通对象实现Serializable来支持序列化。
简单的订单Order对象序列化代码如下:

Order order = new Order("iPhone 8 X", 8888);
            try {
                FileOutputStream fileOut = new FileOutputStream("1.data");
                ObjectOutputStream outObj = new ObjectOutputStream(fileOut);
                outObj.writeObject(order);
                outObj.close();
                System.out.println("Objects were serialized!");
            } catch (IOException e) {
                e.printStackTrace();
            }

3、Hadoop序列化机制需求
Doug Cutting决定重写Hadoop的序列化机制,大数据平台Hadoop数据传输有自己的特殊需求,大文件,大对象,而不希望依赖于Java语言。
SystemIllustration

设计的目标:

  1. Compact:压缩.
  2. Fast: 快速serialization and deserilization.
  3. Extensible: 可扩展
  4. Interoperable:互操作

所以大数据Hadoop没有使用Java Serialization,而是编写了自己的序列化框架。 Java序列化的主要问题是它将被序列化的每个对象的类名写入流中,该类的每个后续实例包含对第一个的5字节引用,而不是类名。
How_To_Install_Apache_Avro_On_Ubuntu_Running_Apache_Hadoop

                    序列化过程

除了减少Stream流的有效带宽之外,这还会导致随机访问以及序列化流中记录的排序问题。因此,Hadoop序列化不会编写类名或必需的引用,并假设客户端知道期望的类型。

Java Serialization还为每个反序列化的对象创建一个新对象。实现Hadoop序列化的Hadoop Writable可以重用。因此,有助于提高MapReduce的性能,从而对数十亿条记录进行逐步序列化和反序列化。
4、Avro大数据序列化框架源码
Avro适用于Hadoop,因为它以不同的方式接近序列化。客户端和服务器交换描述数据流的方案。这有助于使其快速,紧凑,并且重要的是使得更容易将语言混合在一起。

5、核心接口Writable
因此,Avro为来大数据定义了一种简化的高性能序列化格式,自己定义了Writable接口,一种用于客户端和服务器通信序列化流的协议,可以在在文件中紧凑地保存数据的方法。
Writable接口有两个方法——一个用于写Write,一个用于读Read。写入方法将其状态写入DataOutput二进制流,读取方法从DataInput二进制流读取其状态。保证高效处理大数据二进制流。
Writable的接口的源代码如下:

package org.apache.hadoop.io;
import java.io.DataOutput;
import java.io.DataInput;
import java.io.IOException;
public interface Writable {
    void write(DataOutput out) throws IOException;
    void readFields(DataInput in) throws IOException;
}

序列化实现代码

public static byte[] serialize(Writable writable) throws IOException {
    ByteArrayOutputStream outStream = new ByteArrayOutputStream();
    DataOutputStream dataOut = new DataOutputStream(outStream);
    writable.write(dataOut);
    dataOut.close();
    return outStream.toByteArray();
}

反序列化实现代码

public static byte[] deserialize(Writable writable, byte[] bytes)
throws IOException {
    ByteArrayInputStream inStream = new ByteArrayInputStream(bytes);
    DataInputStream dataIn = new DataInputStream(inStream);
    writable.readFields(dataIn);
    dataIn.close();
    return bytes;
}

6、Hadoop 整数序列化过程

首先,通过在IntWritable类中包装一个整数值来实例化该类。
然后,实例化ByteArrayOutputStream类。
此外,实例化DataOutputStream类,然后将ByteArrayOutputStream类的对象传递给它。
此外,使用write()方法序列化IntWritable对象中的整数值。此外,确保在使用此方法时需要DataOutputStream类的对象。
最终,我们称为serialize的数据将存储在字节数组对象中,并且在实例化时,数据将作为参数传递给DataOutputStream类。
7、Hadoop反序列化过程
对于反序列化,首先通过在IntWritable类中包装一个整数值来实例化该类。
然后实例化ByteArrayOutputStream类。
此外,实例化DataOutputStream类,并将ByteArrayOutputStream类的对象传递给它。
然后,使用IntWritable类的readFields()方法,反序列化DataInputStream对象中的数据。
这样,反序列化的数据将存储在IntWritable类的对象中。使用这个类的get()方法,我们可以检索这个数据。
Writable针对不同类型,基本类型和引用类型都提供了自己的封装实现。继承关系如下图所示:
hadoop_data_type_writable_interface

8、总结
Hadoop为来更高效的数据传输,自己定义了序列化机制,并且Avro只是大数据分布式架构的RPC传输。
本质上Avro降低了序列化和反序列化对象创建的开销,而且数据精简更加高效。
当然也有其局限性,比如Key是字符串类型。
Avro支持二进制和JSON格式。可以根据需要作出选择。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
5月前
|
传感器 Java 大数据
Java 大视界 -- 基于 Java 的大数据实时数据处理在车联网车辆协同控制中的应用与挑战(197)
本文深入探讨了基于 Java 的大数据实时数据处理在车联网车辆协同控制中的关键应用与技术挑战。内容涵盖数据采集、传输与实时处理框架,并结合实际案例分析了其在车辆状态监测、交通优化与协同驾驶中的应用效果,展示了 Java 大数据技术在提升交通安全性与效率方面的巨大潜力。
|
3月前
|
存储 NoSQL Java
配置RedisTemplate序列化机制
通过上述步骤,你可以灵活配置RedisTemplate的序列化机制,根据应用需求选择合适的序列化器,从而确保数据在Redis中的存储和读取效率最优化。配置合适的序列化机制对于性能和存储效率至关重要,而且这样可以确保数据在存储和传输过程中的结构清晰和一致性。
238 11
|
5月前
|
存储 搜索推荐 算法
Java 大视界 -- Java 大数据在智能金融理财产品风险评估与个性化配置中的应用(195)
本文深入探讨了Java大数据技术在智能金融理财产品风险评估与个性化配置中的关键应用。通过高效的数据采集、存储与分析,Java大数据技术助力金融机构实现精准风险评估与个性化推荐,提升投资收益并降低风险。
Java 大视界 -- Java 大数据在智能金融理财产品风险评估与个性化配置中的应用(195)
|
4月前
|
存储 供应链 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在企业供应链风险预警与决策支持中的应用(204)
本篇文章探讨了基于 Java 的大数据可视化技术在企业供应链风险预警与决策支持中的深度应用。文章系统介绍了从数据采集、存储、处理到可视化呈现的完整技术方案,结合供应链风险预警与决策支持的实际案例,展示了 Java 大数据技术如何助力企业实现高效、智能的供应链管理。
|
4月前
|
存储 SQL Java
Java 大视界 -- Java 大数据在智能医疗手术风险评估与术前方案制定中的应用探索(203)
本文探讨了Java大数据技术在智能医疗手术风险评估与术前方案制定中的创新应用。通过多源数据整合、智能分析模型构建及知识图谱技术,提升手术风险预测准确性与术前方案制定效率,助力医疗决策智能化,推动精准医疗发展。
|
5月前
|
机器学习/深度学习 Java 大数据
Java 大视界 -- Java 大数据在智能政务公共资源交易数据分析与监管中的应用(202)
本篇文章深入探讨了 Java 大数据在智能政务公共资源交易监管中的创新应用。通过构建高效的数据采集、智能分析与可视化决策系统,Java 大数据技术成功破解了传统监管中的数据孤岛、效率低下和监管滞后等难题,为公共资源交易打造了“智慧卫士”,助力政务监管迈向智能化、精准化新时代。
|
5月前
|
数据采集 机器学习/深度学习 Java
Java 大视界 -- Java 大数据在智能体育赛事运动员体能监测与训练计划调整中的应用(200)
本篇文章聚焦 Java 大数据在智能体育赛事中对运动员体能监测与训练计划的智能化应用。通过构建实时数据采集与分析系统,结合机器学习模型,实现对运动员体能状态的精准评估与训练方案的动态优化,推动体育训练迈向科学化、个性化新高度。
|
5月前
|
机器学习/深度学习 分布式计算 Java
Java 大视界 -- Java 大数据机器学习模型在遥感图像土地利用分类中的优化与应用(199)
本文探讨了Java大数据与机器学习模型在遥感图像土地利用分类中的优化与应用。面对传统方法效率低、精度差的问题,结合Hadoop、Spark与深度学习框架,实现了高效、精准的分类。通过实际案例展示了Java在数据处理、模型融合与参数调优中的强大能力,推动遥感图像分类迈向新高度。
|
5月前
|
存储 Java 大数据
Java 大视界 -- Java 大数据在智能家居能源消耗模式分析与节能策略制定中的应用(198)
简介:本文探讨Java大数据技术在智能家居能源消耗分析与节能策略中的应用。通过数据采集、存储与智能分析,构建能耗模型,挖掘用电模式,制定设备调度策略,实现节能目标。结合实际案例,展示Java大数据在智能家居节能中的关键作用。
|
5月前
|
存储 搜索推荐 算法
Java 大视界 -- Java 大数据在智慧文旅旅游线路规划与游客流量均衡调控中的应用实践(196)
本实践案例深入探讨了Java大数据技术在智慧文旅中的创新应用,聚焦旅游线路规划与游客流量调控难题。通过整合多源数据、构建用户画像、开发个性化推荐算法及流量预测模型,实现了旅游线路的精准推荐与流量的科学调控。在某旅游城市的落地实践中,游客满意度显著提升,景区流量分布更加均衡,充分展现了Java大数据技术在推动文旅产业智能化升级中的核心价值与广阔前景。