深入对比Java与Hadoop大数据序列化机制Avro

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: Java有自己提供的序列化机制,而我们的Hadoop也提供了自己的序列化机制,二者究竟有什么差异呢?为什么Hadoop要重新设计自己的序列化体系?序列化大数据对象的过程,Writable接口底层源码实现。

Java有自己提供的序列化机制,而我们的Hadoop也提供了自己的序列化机制,二者究竟有什么差异呢?为什么Hadoop要重新设计自己的序列化体系?序列化大数据对象的过程,Writable接口底层源码实现。
首先我们先了解一下什么是序列化,为什么需要序列化?
1、序列化机制Serialization
序列化Serialization,是将结构化对象转换为字节流以便通过网络传输或写入持久存储的过程。 中文也有翻译为:串行化。
Java_Serialization_

反序列化deSerialization相反,是将字节流转换回一系列结构化对象的相反过程。 序列化用于分布式数据处理的两个截然不同的领域:进程间通信和持久存储。

2、Java序列化
Java对象序列化JDK 1.1引入,将Java对象转换为用于存储或传输的字节数组的机制,这样所述字节数组可以再转换回Java对象。Java提供了ObjectInputStream / ObjectOutputStream类,普通对象实现Serializable来支持序列化。
简单的订单Order对象序列化代码如下:

Order order = new Order("iPhone 8 X", 8888);
            try {
                FileOutputStream fileOut = new FileOutputStream("1.data");
                ObjectOutputStream outObj = new ObjectOutputStream(fileOut);
                outObj.writeObject(order);
                outObj.close();
                System.out.println("Objects were serialized!");
            } catch (IOException e) {
                e.printStackTrace();
            }

3、Hadoop序列化机制需求
Doug Cutting决定重写Hadoop的序列化机制,大数据平台Hadoop数据传输有自己的特殊需求,大文件,大对象,而不希望依赖于Java语言。
SystemIllustration

设计的目标:

  1. Compact:压缩.
  2. Fast: 快速serialization and deserilization.
  3. Extensible: 可扩展
  4. Interoperable:互操作

所以大数据Hadoop没有使用Java Serialization,而是编写了自己的序列化框架。 Java序列化的主要问题是它将被序列化的每个对象的类名写入流中,该类的每个后续实例包含对第一个的5字节引用,而不是类名。
How_To_Install_Apache_Avro_On_Ubuntu_Running_Apache_Hadoop

                    序列化过程

除了减少Stream流的有效带宽之外,这还会导致随机访问以及序列化流中记录的排序问题。因此,Hadoop序列化不会编写类名或必需的引用,并假设客户端知道期望的类型。

Java Serialization还为每个反序列化的对象创建一个新对象。实现Hadoop序列化的Hadoop Writable可以重用。因此,有助于提高MapReduce的性能,从而对数十亿条记录进行逐步序列化和反序列化。
4、Avro大数据序列化框架源码
Avro适用于Hadoop,因为它以不同的方式接近序列化。客户端和服务器交换描述数据流的方案。这有助于使其快速,紧凑,并且重要的是使得更容易将语言混合在一起。

5、核心接口Writable
因此,Avro为来大数据定义了一种简化的高性能序列化格式,自己定义了Writable接口,一种用于客户端和服务器通信序列化流的协议,可以在在文件中紧凑地保存数据的方法。
Writable接口有两个方法——一个用于写Write,一个用于读Read。写入方法将其状态写入DataOutput二进制流,读取方法从DataInput二进制流读取其状态。保证高效处理大数据二进制流。
Writable的接口的源代码如下:

package org.apache.hadoop.io;
import java.io.DataOutput;
import java.io.DataInput;
import java.io.IOException;
public interface Writable {
    void write(DataOutput out) throws IOException;
    void readFields(DataInput in) throws IOException;
}

序列化实现代码

public static byte[] serialize(Writable writable) throws IOException {
    ByteArrayOutputStream outStream = new ByteArrayOutputStream();
    DataOutputStream dataOut = new DataOutputStream(outStream);
    writable.write(dataOut);
    dataOut.close();
    return outStream.toByteArray();
}

反序列化实现代码

public static byte[] deserialize(Writable writable, byte[] bytes)
throws IOException {
    ByteArrayInputStream inStream = new ByteArrayInputStream(bytes);
    DataInputStream dataIn = new DataInputStream(inStream);
    writable.readFields(dataIn);
    dataIn.close();
    return bytes;
}

6、Hadoop 整数序列化过程

首先,通过在IntWritable类中包装一个整数值来实例化该类。
然后,实例化ByteArrayOutputStream类。
此外,实例化DataOutputStream类,然后将ByteArrayOutputStream类的对象传递给它。
此外,使用write()方法序列化IntWritable对象中的整数值。此外,确保在使用此方法时需要DataOutputStream类的对象。
最终,我们称为serialize的数据将存储在字节数组对象中,并且在实例化时,数据将作为参数传递给DataOutputStream类。
7、Hadoop反序列化过程
对于反序列化,首先通过在IntWritable类中包装一个整数值来实例化该类。
然后实例化ByteArrayOutputStream类。
此外,实例化DataOutputStream类,并将ByteArrayOutputStream类的对象传递给它。
然后,使用IntWritable类的readFields()方法,反序列化DataInputStream对象中的数据。
这样,反序列化的数据将存储在IntWritable类的对象中。使用这个类的get()方法,我们可以检索这个数据。
Writable针对不同类型,基本类型和引用类型都提供了自己的封装实现。继承关系如下图所示:
hadoop_data_type_writable_interface

8、总结
Hadoop为来更高效的数据传输,自己定义了序列化机制,并且Avro只是大数据分布式架构的RPC传输。
本质上Avro降低了序列化和反序列化对象创建的开销,而且数据精简更加高效。
当然也有其局限性,比如Key是字符串类型。
Avro支持二进制和JSON格式。可以根据需要作出选择。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
86 2
|
2月前
|
Java 编译器
探索Java中的异常处理机制
【10月更文挑战第35天】在Java的世界中,异常是程序运行过程中不可避免的一部分。本文将通过通俗易懂的语言和生动的比喻,带你了解Java中的异常处理机制,包括异常的类型、如何捕获和处理异常,以及如何在代码中有效地利用异常处理来提升程序的健壮性。让我们一起走进Java的异常世界,学习如何优雅地面对和解决问题吧!
|
12天前
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
46 4
|
27天前
|
Java 程序员
深入理解Java异常处理机制
Java的异常处理是编程中的一块基石,它不仅保障了代码的健壮性,还提升了程序的可读性和可维护性。本文将深入浅出地探讨Java异常处理的核心概念、分类、处理策略以及最佳实践,旨在帮助读者建立正确的异常处理观念,提升编程效率和质量。
115 1
|
28天前
|
Java 开发者 UED
深入探索Java中的异常处理机制##
本文将带你深入了解Java语言中的异常处理机制,包括异常的分类、异常的捕获与处理、自定义异常的创建以及最佳实践。通过具体实例和代码演示,帮助你更好地理解和运用Java中的异常处理,提高程序的健壮性和可维护性。 ##
51 2
|
28天前
|
Java 开发者
Java中的异常处理机制深度剖析####
本文深入探讨了Java语言中异常处理的重要性、核心机制及其在实际编程中的应用策略,旨在帮助开发者更有效地编写健壮的代码。通过实例分析,揭示了try-catch-finally结构的最佳实践,以及如何利用自定义异常提升程序的可读性和维护性。此外,还简要介绍了Java 7引入的多异常捕获特性,为读者提供了一个全面而实用的异常处理指南。 ####
50 2
|
2月前
|
运维 Java 编译器
Java 异常处理:机制、策略与最佳实践
Java异常处理是确保程序稳定运行的关键。本文介绍Java异常处理的机制,包括异常类层次结构、try-catch-finally语句的使用,并探讨常见策略及最佳实践,帮助开发者有效管理错误和异常情况。
101 5
|
1月前
|
Java 程序员 UED
深入理解Java中的异常处理机制
本文旨在揭示Java异常处理的奥秘,从基础概念到高级应用,逐步引导读者掌握如何优雅地管理程序中的错误。我们将探讨异常类型、捕获流程,以及如何在代码中有效利用try-catch语句。通过实例分析,我们将展示异常处理在提升代码质量方面的关键作用。
41 3
|
1月前
|
Java 数据库连接 开发者
Java中的异常处理机制:深入解析与最佳实践####
本文旨在为Java开发者提供一份关于异常处理机制的全面指南,从基础概念到高级技巧,涵盖try-catch结构、自定义异常、异常链分析以及最佳实践策略。不同于传统的摘要概述,本文将以一个实际项目案例为线索,逐步揭示如何高效地管理运行时错误,提升代码的健壮性和可维护性。通过对比常见误区与优化方案,读者将获得编写更加健壮Java应用程序的实用知识。 --- ####
|
1月前
|
开发框架 安全 Java
Java 反射机制:动态编程的强大利器
Java反射机制允许程序在运行时检查类、接口、字段和方法的信息,并能操作对象。它提供了一种动态编程的方式,使得代码更加灵活,能够适应未知的或变化的需求,是开发框架和库的重要工具。
45 2