0016-Avro序列化&反序列化和Spark读取Avro数据

简介:

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

1.简介

本篇文章主要讲如何使用java生成Avro格式数据以及如何通过spark将Avro数据文件转换成DataSet和DataFrame进行操作。

1.1Apache Arvo是什么?

Apache Avro 是一个数据序列化系统,Avro提供Java、Python、C、C++、C#等语言API接口,下面我们通过java的一个实例来说明Avro序列化和反序列化数据。

  • 支持丰富的数据结构
  • 快速可压缩的二进制数据格式
  • 存储持久数据的文件容器
  • 远程过程调用(RPC)
  • 动态语言的简单集成

2.Avro数据生成

2.1定义Schema文件

1.下载avro-tools-1.8.1.jar

Avro官网:http://avro.apache.org/ Avro版本:1.8.1 下载Avro相关jar包:avro-tools-1.8.1.jar 该jar包主要用户将定义好的schema文件生成对应的java文件

2.定义一个schema文件,命名为CustomerAdress.avsc

{

"namespace":"com.peach.arvo",

"type": "record",

"name": "CustomerAddress",

"fields": [

{"name":"ca_address_sk","type":"long"},

{"name":"ca_address_id","type":"string"},

{"name":"ca_street_number","type":"string"},

{"name":"ca_street_name","type":"string"},

{"name":"ca_street_type","type":"string"},

{"name":"ca_suite_number","type":"string"},

{"name":"ca_city","type":"string"},

{"name":"ca_county","type":"string"},

{"name":"ca_state","type":"string"},

{"name":"ca_zip","type":"string"},

{"name":"ca_country","type":"string"},

{"name":"ca_gmt_offset","type":"double"},

{"name":"ca_location_type","type":"string"}

]

}

Schema说明:

  • namespace:在生成java文件时import包路径
  • type:omplex types(record, enum,array, map, union, and fixed)
  • name:生成java文件时的类名
  • fileds:schema中定义的字段及类型

3.生成java代码文件

使用第1步下载的avro-tools-1.8.1.jar包,生成java code

java -jar avro-tools-1.8.1.jar compile schema CustomerAddress.avsc .

末尾的"."代表java code 生成在当前目录,命令执行成功后显示:

2.2使用Java生成Avro文件

1.使用Maven创建java工程

在pom.xml文件中添加如下依赖

org.apache.avro

avro

1.8.1

2.新建java类GenerateDataApp,代码如下

动态生成avro文件,通过将数据封装为GenericRecord对象,动态的写入avro文件,以下代码片段:

3. Spark读Avro文件

1.使用Maven创建一个scala工程

在pom.xml文件中增加如下依赖

2.Scala事例代码片段

3.Spark运行结果

源码地址:

https://github.com/javaxsky/avrotospark

醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花!
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

相关文章
|
2月前
|
XML 存储 JSON
Twaver-HTML5基础学习(19)数据容器(2)_数据序列化_XML、Json
本文介绍了Twaver HTML5中的数据序列化,包括XML和JSON格式的序列化与反序列化方法。文章通过示例代码展示了如何将DataBox中的数据序列化为XML和JSON字符串,以及如何从这些字符串中反序列化数据,重建DataBox中的对象。此外,还提到了用户自定义属性的序列化注册方法。
41 1
|
4天前
|
存储 安全 Java
Java编程中的对象序列化与反序列化
【10月更文挑战第22天】在Java的世界里,对象序列化和反序列化是数据持久化和网络传输的关键技术。本文将带你了解如何在Java中实现对象的序列化与反序列化,并探讨其背后的原理。通过实际代码示例,我们将一步步展示如何将复杂数据结构转换为字节流,以及如何将这些字节流还原为Java对象。文章还将讨论在使用序列化时应注意的安全性问题,以确保你的应用程序既高效又安全。
|
17天前
|
存储 Java
Java编程中的对象序列化与反序列化
【10月更文挑战第9天】在Java的世界里,对象序列化是连接数据持久化与网络通信的桥梁。本文将深入探讨Java对象序列化的机制、实践方法及反序列化过程,通过代码示例揭示其背后的原理。从基础概念到高级应用,我们将一步步揭开序列化技术的神秘面纱,让读者能够掌握这一强大工具,以应对数据存储和传输的挑战。
|
23天前
|
存储 安全 Java
Java编程中的对象序列化与反序列化
【10月更文挑战第3天】在Java编程的世界里,对象序列化与反序列化是实现数据持久化和网络传输的关键技术。本文将深入探讨Java序列化的原理、应用场景以及如何通过代码示例实现对象的序列化与反序列化过程。从基础概念到实践操作,我们将一步步揭示这一技术的魅力所在。
|
4天前
|
存储 缓存 NoSQL
一篇搞懂!Java对象序列化与反序列化的底层逻辑
本文介绍了Java中的序列化与反序列化,包括基本概念、应用场景、实现方式及注意事项。序列化是将对象转换为字节流,便于存储和传输;反序列化则是将字节流还原为对象。文中详细讲解了实现序列化的步骤,以及常见的反序列化失败原因和最佳实践。通过实例和代码示例,帮助读者更好地理解和应用这一重要技术。
6 0
|
2月前
|
存储 XML JSON
用示例说明序列化和反序列化
用示例说明序列化和反序列化
16 1
|
2月前
|
JSON fastjson Java
niubility!即使JavaBean没有默认无参构造器,fastjson也可以反序列化。- - - - 阿里Fastjson反序列化源码分析
本文详细分析了 Fastjson 反序列化对象的源码(版本 fastjson-1.2.60),揭示了即使 JavaBean 沲有默认无参构造器,Fastjson 仍能正常反序列化的技术内幕。文章通过案例展示了 Fastjson 在不同构造器情况下的行为,并深入探讨了 `ParserConfig#getDeserializer` 方法的核心逻辑。此外,还介绍了 ASM 字节码技术的应用及其在反序列化过程中的角色。
62 10
|
2月前
|
JSON 缓存 NoSQL
redis序列化数据时,如何包含clsss类型信息?
通过配置 `com.fasterxml.jackson.databind.ObjectMapper` 的 `enableDefaultTyping` 方法,可以使序列化后的 JSON 包含类信息。
48 2
|
2月前
|
存储 Java 开发者
Java编程中的对象序列化与反序列化
【9月更文挑战第20天】在本文中,我们将探索Java编程中的一个核心概念——对象序列化与反序列化。通过简单易懂的语言和直观的代码示例,你将学会如何将对象状态保存为字节流,以及如何从字节流恢复对象状态。这不仅有助于理解Java中的I/O机制,还能提升你的数据持久化能力。准备好让你的Java技能更上一层楼了吗?让我们开始吧!
|
2月前
|
JSON 安全 编译器
扩展类实例的序列化和反序列化
扩展类实例的序列化和反序列化
30 0