ApacheHudi使用问题汇总(一)

简介: ApacheHudi使用问题汇总(一)

1.如何写入Hudi数据集

通常,你会从源获取部分更新/插入,然后对Hudi数据集执行写入操作。如果从其他标准来源(如Kafka或tailf DFS)中提取数据,那么DeltaStreamer将会非常有用,其提供了一种简单的自我管理解决方案,可将数据写入Hudi。你还可以自己编写代码,使用Spark数据源API从自定义源获取数据,并使用Hudi数据源写入Hudi。

2. 如何部署Hudi作业

写入Hudi的好处是它可以像在YARN/Mesos甚至是K8S群集上运行的任何其他Spark作业一样运行。只需使用Spark UI即可查看写入操作,而无需单独搭建Hudi集群。

3. 如何查询刚写入的Hudi数据集

除非启用了Hive同步,否则与其他任何源一样,通过上述方法写入Hudi的数据集可以简单地通过Spark数据源进行查询。

val hoodieROView = spark.read.format("org.apache.hudi").load(basePath + "/path/to/partitions/*")
val hoodieIncViewDF = spark.read().format("org.apache.hudi")
     .option(DataSourceReadOptions.VIEW_TYPE_OPT_KEY(), DataSourceReadOptions.VIEW_TYPE_INCREMENTAL_OPT_VAL())
     .option(DataSourceReadOptions.BEGIN_INSTANTTIME_OPT_KEY(), )
     .load(basePath);

请注意:当前不支持从Spark数据源读取实时视图。请使用下面的Hive路径。

如果在deltastreamer工具或数据源中启用了Hive Sync,则该数据集会同步到Hive的几张表中,可以使用HiveQL,Presto或SparkSQL进行读取。点击这里查看更多。

4. Hudi如何处理输入中的重复记录

在数据集上执行 upsert操作时,提供的记录包含给定键的多条记录,然后通过重复调用有效负载类的 preCombine方法将所有记录合并为一个最终值。默认情况下会选择最大值的记录(由 compareTo决定)。

对于 insertbulk_insert操作,不执行 preCombine。因此,如果你的输入包含重复项,则数据集也将包含重复项。如果您不希望重复的记录,请使用upsert或在数据源或deltastreamer中指定删除重复数据的配置项。

5. 可以实现自定义合并逻辑处理输入记录和存储的记录吗

与上面类似,定义有效负载类定义的方法(combineAndGetUpdateValue(),getInsertValue()),这些方法控制如何将存储的记录与输入的更新/插入组合以生成最终值以写回到存储中。

6. 如何删除数据集中的记录

GDPR使删除成为数据管理工具箱中的必备工具。Hudi支持软删除和硬删除。有关如何实际执行它们,请参见此处。

7. 如何将数据迁移到Hudi

Hudi对迁移提供了内置支持,可使用 hudi-cli提供的 HDFSParquetImporter工具将整个数据集一次性写入Hudi。也可以使用Spark数据源API读取和写入数据集。迁移后,可以使用此处讨论的常规方法执行写操作。这里也详细讨论该问题,包括部分迁移的方法。

8. 如何将Hudi配置传递给Spark作业

这里涵盖了数据源和Hudi写入客户端(deltastreamer和数据源都会内部调用)的配置项。在DeltaStreamer之类的工具上调用 --help都会打印所有使用选项。许多控制 upsert、调整文件大小的选项是在客户端级别定义的,下面是将它们传递给可用于写数据配置项的方式。

1). 对于Spark DataSource,可以使用DataFrameWriter的 options API来传递这些配置项。

inputDF.write().format("org.apache.hudi")
  .options(clientOpts) // any of the Hudi client opts can be passed in as well
  .option(DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY(), "_row_key")
  ...

2). 直接使用HoodieWriteClient时,只需使用配置来构造HoodieWriteConfig对象。

3). 使用HoodieDeltaStreamer工具提取时,可以在属性文件中设置配置项,并将该文件作为命令行参数 --props传递。

9. 可以在Apache Hive Metastore中注册Hudi数据集吗

可以, 可以通过独立的Hive Sync工具或使用deltastreamer工具或数据源中的选项来执行此操作。

10. Hudi索引的工作原理及其好处是什么

索引是Hudi写入的关键部分,它始终将给定的 recordKey映射到Hudi内部的文件组( FileGroup)。这样可以更快地识别受给定写入操作影响的文件组。

Hudi支持以下几种索引配置

  • HoodieBloomIndex(默认):使用bloom过滤器和范围信息,并在parquet/基础文件(不久后的日志文件也支持)的页脚中放置该信息。
  • HoodieGlobalBloomIndex:默认索引仅在单个分区内强制执行键的唯一性,即要求用户知道存储给定记录键的分区。这可以帮助非常大的数据集很好地建立索引。但是,在某些情况下,可能需要在所有分区上执行重复数据删除/强制唯一性操作,这就需要全局索引。如果使用此选项,则将传入记录与整个数据集中的文件进行比较,并确保仅在一个分区中存在 recordKey
  • HBaseIndex:Apache HBase是一个键值存储,可以将索引存储在HBase内,如果已经在使用HBase,这将会非常方便。

也可以自定义索引,需要实现HoodieIndex类并在配置中配置索引类名称。

目录
相关文章
|
存储 SQL 缓存
hudi概念讲解
hudi概念讲解
hudi概念讲解
|
存储 JavaScript 前端开发
使用CDN方法的方式进行Vue.js的安装
最近公司需要进行一些前端的开发工作用到了Vue前端框架,所以准备自学Vue,顺便几下学习的过程以及一些问题。
1147 0
使用CDN方法的方式进行Vue.js的安装
|
网络协议 开发工具 对象存储
OSS正式支持IPv6公测
6月20日阿里云宣布全面支持IPv6, 随后阿里云开放对象存储OSS也逐步开始向用户公测,本周主要介绍如何在OSS上测试IPv6。
3789 0
|
9月前
|
存储 机器学习/深度学习 弹性计算
阿里云服务器八代实例计算型c8i与通用型g8i性能和适用场景及最新收费标参考
阿里云服务器计算型c8i与通用型g8i实例怎么样?阿里云ECS家族第八代热门云服务器实例,计算型c8i与通用型g8i实例凭借全新CIPU架构、第四代Intel处理器以及芯片级安全加固技术,构成了云计算基础设施的"双引擎"。本文为大家介绍这两个实例规格的性能、适用场景及最新价格情况,并通过多维度对比与技术解析,为您展示这两款实例的核心优势与最新价格策略,以供参考和选择。
|
存储 分布式计算 Apache
万字长文:基于Apache Hudi + Flink多流拼接(大宽表)最佳实践
万字长文:基于Apache Hudi + Flink多流拼接(大宽表)最佳实践
1588 3
|
SQL 存储 OLAP
ClickHouse 在什么场景下才管用?
ClickHouse 是一款以速度快著称的分析型数据库,尤其在列式宽表遍历方面表现出色。然而,面对复杂查询和关联运算时,ClickHouse 的性能急剧下降,甚至无法执行某些任务。相比之下,esProc SPL 通过更简洁的 SPL 语法和强大的优化能力,在各种复杂场景下均表现出色,全面超越 ClickHouse。实际案例显示,esProc SPL 在处理大规模数据时,性能提升可达数十倍。
|
存储 Kubernetes 监控
在K8S中,集群可以做哪些优化?
在K8S中,集群可以做哪些优化?
|
Java 关系型数据库 MySQL
入职必会-开发环境搭建13-Maven安装和配置
Mven是一个流行的项目管理工具,它可以帮助开发人员构建、发布和管理Java项目。本文包含Maven安装和配置。
309 0
|
SQL 分布式计算 Java
Apache Hudi与Hive集成手册
Apache Hudi与Hive集成手册
815 0
|
消息中间件 关系型数据库 MySQL
实时计算 Flink版操作报错之运行kafka时报错:javax.management.InstanceAlreadyExistsException,该如何解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。