备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

cdc 同步数据至hudi并映射为hive外表，compact过程中hive中的表为何短暂性不可查？

cdc 同步数据至hudi并映射为hive外表，hudi会进行数据compact，compact过程中hive中的表会存在短暂性不可查，这类问题是否有解决方案 ?

展开

收起

wenti 2023-02-13 15:21:09 300 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

清风拂袖

在使用 Change Data Capture (CDC) 同步数据到 Hudi 并映射为 Hive 外表时，在 Hudi 执行 compaction 过程中，Hive 中的表可能会出现短暂性不可查的情况。这是因为：

Hudi compaction 会生成新的文件：当 Hudi 执行 compaction 时，它会生成新的数据文件，其中包含经过合并和优化后的数据。
Hive 外表指向旧文件：Hive 外表最初指向 Hudi 中的原始数据文件。当 compaction 发生时，Hive 外表尚未更新以指向新的数据文件。
Hive 缓存：Hive 会缓存表元数据，包括指向数据文件的位置。在 compaction 期间，Hive 缓存可能不会立即更新，导致 Hive 继续指向旧的数据文件。
因此，在 compaction 过程中，Hive 可能无法找到最新的数据文件，从而导致表暂时不可查。

解决方法：

有几种方法可以解决这个问题：

使用增量刷新：使用增量刷新，Hive 外表会在每次 CDC 同步后更新，以指向最新的数据文件。这可以最大限度地减少 compaction 期间表不可查的时间。
手动刷新 Hive 元数据：在 compaction 完成后，可以手动刷新 Hive 元数据，以强制 Hive 识别新的数据文件。可以使用以下命令：
MSCK REPAIR TABLE ;
使用 Hive 的 LLAP：Hive 的 LLAP（低延迟分析协议）功能可以减少缓存问题的影响。LLAP 会在查询时动态加载数据文件，而不会依赖于缓存。
注意：

compaction 的持续时间和 Hive 表不可查的程度取决于数据量和 Hudi 配置。
频繁的 compaction 或大规模的数据更新可能会导致更长的不可查时间。

2024-02-26 16:21:52

赞同展开评论

问答分类：

SQL HIVE 实时计算 Flink版

问答标签：

cdc Hive cdc同步数据Hive 同步数据Hive Hive数据映射Hive外表

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

110

0

0

有用flink cdc同步mysql到hive这样搞过的源码吗?

120

0

0

在Flink CDC中，该怎么改？hive开启ACID,还是换个doris？

76

1

0

在Flink CDC中， Flniksql 不支持MYSQL写入hive嘛？

127

1

0

各位，Flink 的离线计算的数据是怎么存放的？是存在 HDFS（或Hive）上的吗？

1849

6

0

flink1.16不支持hive2.1了吗？

896

1

0

flink CDC可以直接将mysql中的数据直接写入到hive中吗？

794

1

0

你好，现在flink cdc 在增量阶段可以实现upsert到iceberg（hive）吗？我用f

634

0

0

当我使用flink cdc+ iceberg+hive同步数据，启用upsert时，提交sql jo

1634

1

0

flink写hive全是小文件咋整啊，大佬们？

2019

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199214

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关文章

Jetpack Room 从入门到精通

Windows Server 2025 中文版、英文版下载 (2025 年 11 月更新)

Dataphin数据血缘：实现全面追溯，保障流转透明

Pixeltable:一张表搞定embeddings、LLM、向量搜索，多模态开发不再拼凑工具

拒绝"数字坟墓"：如何用AI让沉睡的数据开口说话？

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

有大佬遇到过flink web ui上的指标都是loading状态吗，flink版本是1.17.1？

hudi怎么删除某个分区（年、月两级分区）

Flink sql中的GROUP_CONCAT 函数得怎么实现？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

Flink这个 busy 是啥意思？

报这个错，大家有遇到过吗？

Flink CDC有开源免费的基于flink的可视化数据管理平台介绍嘛？

展开全部

流计算精品翻译: The Dataflow Model

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

Apache Flink 漫谈系列(04) - State

基于Flink的实时日志分析系统实践

Flink: 实时规则引擎助力新零售发展

Flink: 快速构建统一的实时日志平台

Flink SQL 功能解密系列 —— 阿里云流计算/Blink支持的connectors

开篇 | 揭秘 Flink 1.9 新架构，Blink Planner 你会用了吗？

基于Flink和规则引擎的实时风控解决方案

展开全部

还有其他疑问?