flink 读取hudi 表元数据信息-阿里云开发者社区

flink 读取hudi 表元数据信息

2023-01-29 1111

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： flink 如何获取hudi 表的元数据信息

一：catalog 配置

String createCatalog = "CREATE CATALOG hudi_catalog WITH (\n" +

" 'type' = 'hudi',\n" +

" 'mode' = 'hms',\n" +

" 'default-database' = 'default',\n" +

" 'hive.conf.dir' = '/Users/xuchao/conf/hadoopconf/dev_hadoop_flink01',\n" +

" 'table.external' = 'true'\n" +

")";

二：表信息读取org.apache.hudi.table.catalog.HoodieHiveCatalog#getTable

通过HiveMetaStoreClient 获取当前db.tablename 的 org.apache.hadoop.hive.metastore.api.Table 信息，并转化为flink 需要属性的表结构

获取最新的表结构,构建org.apache.avro.Schema

1: 获取Schema 的逻辑入口在StreamerUtil.getLatestTableSchema，主要通过表所在路径（eg:hdfs://ns1/dtInsight/hive/warehouse/flink_db/test_hudi_flink_cow1）+ hiveConf 来解析，具体逻辑后面的步骤会逐一解析。

2: 获取ActiveTimeLine . 通过调用元数据接口获取对应目录下需要读取的扩展名的文件，

其中timelinePath ---> hdfs://ns1/dtInsight/hive/warehouse/flink_db/test_hudi_flink_cow1/.hoodie

includedExtensions ---> [.restore, .rollback, .clean.inflight, .schemacommit.inflight, .inflight, .savepoint.inflight, .restore.inflight, .deltacommit.requested, .restore.requested, .replacecommit, .deltacommit, .savepoint, .replacecommit.requested, .deltacommit.inflight, .indexing.inflight, .schemacommit.requested, .compaction.requested, .indexing.requested, .rollback.requested, .replacecommit.inflight, .clean.requested, .rollback.inflight, .compaction.inflight, .commit.requested, .commit, .schemacommit, .indexing, .clean]

3: 根据上面扫描目录获取到的元数据信息进行过滤处理，过滤逻辑：根据时间+action 进行分组，

分组之后根据组里面的state 对比获取最高级的instance

HoodieInstant 属性action,state 的含义：

action 指的是对Hudi表执行的操作类型目前包括:

commit（表示一批记录原子性的写入到一张表中）,

deltacommit（增量提交指的是将一批记录原子地写入MergeOnRead类型表，其中一些/所有数据都可以写入增量日志）,

clean(清除表中不再需要的旧版本文件),

savepoint(将文件组标记为“saved”,cleans执行时不会删除对应的数据),

restore,

rollback(Commits或者Delta_commit执行不成功时回滚数据，删除期间产生的任意文件),

compaction(将行式文件转化为列式文件),

replacecommit,

indexing;

state表示在指定的时间点（Instant Time）对Hudi表执行操作（Instant Action）后，表所处的状态，目前包括:REQUESTED(已调度但未初始化),INFLIGHT(当前正在执行),COMPLETED(操作执行完成),NIL( Invalid instant) ==> 注意在代码中是enum,比较的时候是基于顺序比较大小；

4:获取最新的timeline

metaClient.getActiveTimeline().getLastCommitMetadataWithValidSchema()

基于上面获取到的HoodieInstant 构建

按上面的规则获取到最新的HoodiInstant;

hdfs dfs -cat /dtInsight/hive/warehouse/flink_db/test_hudi_flink_cow1/.hoodie/20230113135706243.commit, 查看其中的内容：

从commit 的schema str 中解析出Schema,eg:

从paramaters 里面获取对应的primaryKey 信息，最后在基于flink 的CatalogTable 构建出CatalogBaseTable

至此hudi 表的元数据信息构建完成

相关实践学习

基于Hologres+Flink搭建GitHub实时数据大屏

通过使用Flink、Hologres构建实时数仓，并通过Hologres对接BI分析工具（以DataV为例），实现海量数据实时分析.

实时计算 Flink 实战课程

如何使用实时计算 Flink 搞定数据处理难题？实时计算 Flink 极客训练营产品、技术专家齐上阵，从开源 Flink功能介绍到实时计算 Flink 优势详解，现场实操，5天即可上手！欢迎开通实时计算 Flink 版： https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍： Flink Forward 是由 Apache 官方授权，Apache Flink Community China 支持的会议，通过参会不仅可以了解到 Flink 社区的最新动态和发展计划，还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验，是 Flink 开发者和使用者不可错过的盛会。去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与，一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况，Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。

flink 读取hudi 表元数据信息

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

flink 读取hudi 表元数据信息

热门文章

最新文章

相关课程

相关电子书

相关实验场景