生态 | Apache Hudi集成Alluxio实践

2022-05-06 992

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 笔记

1. 什么是Alluxio

Alluxio为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。这还使得应用程序能够通过一个公共接口连接到许多存储系统。Alluxio内存至上的层次化架构使得数据的访问速度能比现有方案快几个数量级。

对于用户应用程序和计算框架，Alluxio提供了快速存储，促进了作业之间的数据共享和局部性。当数据位于本地时，Alluxio可以以内存速度提供数据；当数据位于Alluxio时，Alluxio可以以计算集群网络的速度提供数据。第一次访问数据时，只从存储系统上读取一次数据。为了得到更好的性能，Alluxio推荐部署在计算集群上。

对于存储系统，Alluxio弥补了大数据应用与传统存储系统之间的差距，扩大了可用的数据工作负载集。当同时挂载多个数据源时，Alluxio可以作为任意数量的不同数据源的统一层。

Alluxio可以被分为三个部分：masters、workers以及clients。一个典型的设置由一个主服务器、多个备用服务器和多个worker组成。客户端用于通过Spark或MapReduce作业、Alluxio命令行等与Alluxio服务器通信。

2. 什么是Apache Hudi

Apache Hudi使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。这两种原语分别是：

Update/Delete记录：Hudi使用细粒度的文件/记录级别索引来支持Update/Delete记录，同时还提供写操作的事务保证。查询会处理最后一个提交的快照，并基于此输出结果。
变更流：Hudi对获取数据变更提供了一流的支持：可以从给定的时间点获取给定表中已updated/inserted/deleted的所有记录的增量流，并解锁新的查询姿势（类别）

3. 步骤

3.1 环境准备

参考官网安装搭建alluxio环境：https://www.alluxio.io/

3.2 执行

在hudi可以加载到的cores-site.xml 文件里面追加此配置

<property>
  <name>fs.alluxio.impl</name>
  <value>alluxio.hadoop.FileSystem</value>
</property>

将此依赖添加进工程pom.xml

<dependency>
  <groupId>org.alluxio</groupId>
  <artifactId>alluxio-shaded-client</artifactId>
  <version>2.2.1</version>
</dependency>

用户可以把jar包放在spark可以加载的地方或者通过以下方式引入

--jars alluxio-shaded-client-2.2.1.jar

这时只需要把数据写入alluxio即可，使用deltastreamer的使用需要如下配置

--target-base-path alluxio://........

完成上述步骤就已经完成了把hudi数据写入了alluxio的工作。事实上这个时候数据还未从hdfs加载到alluxio，需要查询一次即可；查询不同的hudi视图方式

可以使用hive sql查询。使用命令查询hive表结构发现loaction已经指向了alluxio
可以使用spark sql查询。spark.read.format("org.apache.hudi").option(xxx).load("alluxio://")

3.3 验证

验证在未进行查询的时候数据不会加载进alluxio，in-alluxio是0%，当进行一次查询之后数据从hdfs加载进alluxio，in-alluxio大于0%。

4. 问题

4.1 能否做到Alluxio与Hudi完全可拔插？

目前Hudi与开源版本alluxio无法完全做到可拔插。因为hudi依赖hive表进行某些视图的查询，然而要把hive表的数据源从alluxio指向hdfs需要修改hive表的loaction，但是生产环境我们一般无法进行在线修改hive表的操作。如果想不修改location可以使用alluxio企业版本

生态 | Apache Hudi集成Alluxio实践

1. 什么是Alluxio

2. 什么是Apache Hudi

3. 步骤

3.1 环境准备

3.2 执行

3.3 验证

4. 问题

4.1 能否做到Alluxio与Hudi完全可拔插？

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

生态 | Apache Hudi集成Alluxio实践

1. 什么是Alluxio

2. 什么是Apache Hudi

3. 步骤

3.1 环境准备

3.2 执行

3.3 验证

4. 问题

4.1 能否做到Alluxio与Hudi完全可拔插？

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像